随着摩尔定律芯片的扩展达到收益递减的地步,核心处理器架构正在不断发展,以加速从人工智能模型训练和推理,支持那些苛刻工作负载的数据中心以及庞大的边缘计算部署在内的所有工作。
这些芯片设计趋势是日前召开的Processor Conference大会的焦点,在此义侠会议上,首席分析师Linley Gwennap提出了硬件加速器的理由,因为摩尔定律已不复存在。与人工智能和边缘计算一起,新兴的芯片体系结构被用于提高应用程序性能以及支持这些企业工作负载的数据中心基础架构。
Gwennap公司认为,缩小到3nm节点的芯片几乎没有产生性能上的好处,而电阻增大等因素却使晶体管的增益,速度和功率下降。此外,成本和功率限制超过了扩展的晶体管数量。
例如,Gwennap指出Nvidia公司的7nmAmpereGPU时钟运行速度比其前身12nmVolta处理器慢。
这些芯片和其他先进的芯片都是由台湾半导体制造公司制造的。早期迹象表明,与芯片扩展相关的成本超过了优势,Global Foundries在7nm节点上投入了大笔资金。取而代之的是,台积电公司的主要竞争对手集中在12纳米及更高的节点上,目标是低功耗嵌入式芯片应用。
Gwennap公司表示,另一种新兴的处理器策略是用新颖的硬件加速器设计代替大量的晶体管。例如,采用GPU和网络处理器形式的专用加速器来增强计算和内存资源。一个典型的例子是AI加速器芯片以及数据处理单元或DPU的数量不断增加。
Gwennap说:“人工智能加速器与处理器有所不同,许多加速器使用了像脉动阵列这样的并行计算设计,以“打破寄存器文件的瓶颈”。他们还采用内存而不是缓存存储器来提高性能。
同时,由于这些功能从CPU转移到智能网络接口卡,DPU的目标是网络瓶颈。Gwennap在主题演讲中指出,可以使用自定义体系结构来加速软件定义的网络功能,例如虚拟路由器,灵活的存储和无线电接入网络。
另一种硬件加速策略是内存处理,该架构将多个处理器放置在尽可能靠近内存阵列的位置。当前的设计需要比用于计算结果的能力更多的能力来获取数据。芯片行业分析师说:“内存计算突破了瓶颈。内存设计可以大大降低功耗要求。”
在现实中,复杂的图像和语言处理模型要比用于简单任务的模型大得多,这是加速AI工作负载的要求。例如,Linley Group估计OpenAI的第三代语言生成器GPT-3可处理1,750亿个参数。相比之下,ResNet-50卷积神经网络仅使用2600万个。
通用语言模型使用深度学习来生成文本。在今年9月份,OpenAI将该技术许可给了微软公司。