1月18日消息,台湾师范大学电机工程系团队与芯片厂商视芯 (AVSdsp) 合作,共同发布了一款人工智能深度学习神经网络芯片,尺寸只有0.7 公分,为目前全球最小的AI芯片,另外还推出了“终端产品AI 验证开发板”,期待在未来能将完整的AI 功能融入各项电器,推动AI的应用和发展。
终端AI(Edge AI) 芯片体积小、耗电低、功能单一且成本低,可扮演智能助理进行AI 识别和推理,并在省下人力、时间等巨额开发成本的情况下,将各产业现有的影音产品升级成AI 智能产品,让产品发挥应有的效益。
研发团队指出,AI 识别推理是由AI 芯片Mipy 所扮演的智能助理进行,这种芯片比市面上的AI 芯片速度更快,成本也更低,能够达到即时识别出上千张人脸,并且同步识别出性别、表情和年龄,还包括语音识别功能,是推进终端AI 产品的最佳选择。
这项合作计划是由台湾师范大学电机系AI 与机器人团队提供AI 设计概念与应用框架,并由视芯公司CEO沈联杰、总经理曾清通参与影音处理芯片设计,期望借此开发合作,协助相关产品实现AI 功能,共创双赢的AI 新时代。
那么问题来了,如何才能设计一款真正适用于终端的AI芯片。
简单的设计一个卷积加速器并不能带来深度学习计算性能上的提高,合格的计算架构需要结合对存储问题的分析来设计,不仅要考虑计算架构,也要考虑存储的数据流控制,因此深度学习的计算特点并非是一个简单粗暴的并行计算问题。
首先还是要考虑浮点和定点计算的问题,8 位的整数乘法比IEEE 754标准下16位浮点乘法降低 6 倍的能耗,占用的芯片面积也少 6 倍;而整数加法的差异是13倍的能耗与38倍的面积,因此终端AI芯片采用定点计算将获得巨大收益。当定点成为设计目标的时候,要充分考虑软硬件的结合,不同网络对定点位数的影响程度是不一样的,数据量化的具体方式也有差异,有线性量化也有非线性量化的方法,因此针对应用场景结合软件协同设计非常有必要。
其次深度学习不是简单粗暴的并行计算但仍然有明显的并行计算特征,因此考虑存储问题后放入更多的计算资源会大幅提高计算性能。首先将最多被重复使用的数据放在接近计算资源的地方,这符合较为流行的In Memory Computing(存储计算一体化)的思想,并且考虑到当前工业水平,这更为实际,而通过重新设计包括计算单元的存储单元或采用ReRAM等方式是未来的 发展方向。
第三要考虑到深度学习数据的另一重要特性,即数据稀疏化特性,也就是说在参与运算的数据中有大量的零值数据存在,这些零值数据即可以在存储中被压缩存放,降低存储容量和带宽需求,也可以在计算中被进一步调度,减少运算压力,提高运算的有效性能。这些零值数据不仅存在于模型参数中,也大量存在于神经网络各层运算的中间数据中,这两方面都需要进行考虑。稀疏数据在多核心并行计算中的调度是个复杂的问题,而不同网络结构也会带来不同的影响,因此将软硬件协同设计,动态调度的调度器是非常复杂的设计难点。
最后要考虑针对不同网络的资源有效利用率问题,由于神经网络差异化较大,如果希望针对不同网络都有较高的资源有效利用率,则需要在较细的颗粒度上进行优化,进一步加深了数据流调度器的复杂度。