2010年以来,由于大数据产业的发展,数据量呈现爆炸性增长态势,而传统的计算架构又无法支撑深度学习的大规模并行计算需求,于是研究界对AI芯片进行了新一轮的技术研发与应用研究。AI芯片是人工智能时代的技术核心之一,决定了平台的基础架构和发展生态。
目前,人工智能芯片技术领域的国内代表性企业包括中科寒武纪、中星微、地平线 机器人 、深鉴科技、灵汐科技、启英泰伦、百度、华为等,国外包括英伟达、AMD、Google、高通、NervanaSystems、Movidius、IBM、ARM、CEVA、MIT/Eyeriss、苹果、三星等。(以下排名不分先后)
中科寒武纪
寒武纪科技成立于2016年,总部在北京,创始人是中科院计算所的陈天石、陈云霁兄
弟,公司致力于打造各类智能云服务器、智能终端以及智能机器人的核心处理器芯片。阿里巴巴创投、联想创投、国科投资、中科图灵、元禾原点、涌铧投资联合投资,为全球AI芯片领域第一个独角兽初创公司。
寒武纪是全球第一个成功流片并拥有成熟产品的AI芯片公司,拥有终端AI处理器IP和云端高性能AI芯片两条产品线。2016年发布的寒武纪1A处理器(Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、无人机、可穿戴设备以及智能驾驶等各类终端设备,在运行主流智能算法时性能功耗比全面超越传统处理器。
中星微
1999年,由多位来自硅谷的博士企业家在北京中关村科技园区创建了中星微电子有限公司,启动并承担了国家战略项目——“星光中国芯工程”,致力于数字多媒体芯片的开发、设计和产业化。
2016年初,中星微推出了全球首款集成了神经网络处理器(NPU)的SVAC视频编解码SoC,使得智能分析结果可以与视频数据同时编码,形成结构化的视频码流。该技术被广泛应用于视频监控摄像头,开启了安防监控智能化的新时代。自主设计的嵌入式神经网络处理器(NPU)采用了“数据驱动并行计算”架构,专门针对深度学习算法进行了优化,具备高性能、低功耗、高集成度、小尺寸等特点,特别适合物联网前端智能的需求。
地平线机器人
地平线机器人成立于2015年,总部在北京,创始人是前百度深度学习研究院负责人余凯。
BPU(BrainProcessingUnit)是地平线机器人自主设计研发的高效人工智能处理器架构IP,支持ARM/GPU/FPGA/ASIC实现,专注于自动驾驶、人脸图像辨识等专用领域。2017年,地平线发布基于高斯架构的嵌入式人工智能解决方案,将在智能驾驶、智能生活、公共安防三个领域进行应用,第一代BPU芯片“盘古”目前已进入流片阶段,预计在2018年下半年推出,能支持1080P的高清图像输入,每秒钟处理30帧,检测跟踪数百个目标。地平线的第一代BPU采用TSMC的40nm工艺,相对于传统CPU/GPU,能效可以提升2~3个数量级(100~1,000倍左右)。
深鉴科技
深鉴科技成立于2016年,总部在北京。由清华大学与斯坦福大学的世界顶尖深度学习硬件研究者创立。深鉴科技于2018年7月被赛灵思收购。
深鉴科技将其开发的基于FPGA的神经网络处理器称为DPU。到目前为止,深鉴公开发布了两款DPU:亚里士多德架构和笛卡尔架构,其中,亚里士多德架构是针对卷积神经网络CNN而设计;笛卡尔架构专为处理DNN/RNN网络而设计,可对经过结构压缩后的稀疏神经网络进行极致高效的硬件加速。相对于IntelXeonCPU与NvidiaTitanXGPU,应用笛卡尔架构的处理器在计算速度上分别提高189倍与13倍,具有24,000倍与3,000倍的更高能效。
灵汐科技
灵汐科技于2018年1月在北京成立,联合创始人包括清华大学的世界顶尖类脑计算研究者。公司致力于新一代神经网络处理器(Tianjic)开发,特点在于既能够高效支撑现有流行的机器学习算法(包括CNN,MLP,LSTM等网络架构),也能够支撑更仿脑的、更具成长潜力的脉冲神经网络算法;使芯片具有高计算力、高多任务并行度和较低功耗等优点。软件工具链方面支持由Caffe、TensorFlow等算法平台直接进行神经网络的映射编译,开发友善的用户交互界面。Tianjic可用于云端计算和终端应用场景,助力人工智能的落地和推广。
启英泰伦
启英泰伦于2015年11月在成都成立,是一家语音识别芯片研发商。启英泰伦的CI1006是基于ASIC架构的人工智能语音识别芯片,包含了脑神经网络处理硬件单元,能够完美支持DNN运算架构,进行高性能的数据并行计算,可极大的提高人工智能深度学习语音技术对大量数据的处理效率。
百度
百度2017年8月HotChips大会上发布了XPU,这是一款256核、基于FPGA的云计算加速芯片。合作伙伴是赛思灵(Xilinx)。XPU采用新一代AI处理架构,拥有GPU的通用性和FPGA的高效率和低能耗,对百度的深度学习平台PaddlePaddle做了高度的优化和加速。据介绍,XPU关注计算密集型、基于规则的多样化计算任务,希望提高效率和性能,并带来类似CPU的灵活性。但目前XPU有所欠缺的仍是可编程能力,而这也是涉及FPGA时普遍存在的问题。到目前为止,XPU尚未提供编译器。
华为
麒麟970搭载的神经网络处理器NPU采用了寒武纪IP。麒麟970采用了TSMC10nm工艺制程,拥有55亿个晶体管,功耗相比上一代芯片降低20%。CPU架构方面为4核A73+4核A53组成8核心,能耗同比上一代芯片得到20%的提升;GPU方面采用了12核MaliG72MP12GPU,在图形处理以及能效两项关键指标方面分别提升20%和50%;NPU采用HiAI移动计算架构,在FP16下提供的运算性能可以达到1.92TFLOPs,相比四个Cortex-A73核心,处理同样的AI任务,有大约具备50倍能效和25倍性能优势。
英伟达
英伟达创立于1993年,总部位于美国加利福尼亚州圣克拉拉市。早在1999年,英伟达发明了GPU,重新定义了现代计算机图形技术,彻底改变了并行计算。
深度学习对计算速度有非常苛刻的要求,而英伟达的GPU芯片可以让大量处理器并行运算,速度比CPU快十倍甚至几十倍,因而成为绝大部分人工智能研究者和开发者的首选。自从GoogleBrain采用1.6万个GPU核训练DNN模型,并在语音和图像识别等领域获得巨大成功以来,英伟达已成为AI芯片市场中无可争议的领导者。
AMD
美国AMD半导体公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、APU、主板芯片组、电视卡芯片等),以及提供闪存和低功率处理器解决方案,公司成立于1969年。AMD致力为技术用户——从企业、政府机构到个人消费者——提供基于标准的、以客户为中心的解决方案。
2017年12月Intel和AMD宣布将联手推出一款结合英特尔处理器和AMD图形单元的笔记本电脑芯片。目前AMD拥有针对AI和机器学习的高性能RadeonInstinc加速卡,开放式软件平台ROCm等。
Google在2016年宣布独立开发一种名为TPU的全新的处理系统。TPU是专门为机器学习应用而设计的专用芯片。通过降低芯片的计算精度,减少实现每个计算操作所需晶体管数量的方式,让芯片的每秒运行的操作个数更高,这样经过精细调优的机器学习模型就能在芯片上运行得更快,进而更快地让用户得到更智能的结果。在2016年3月打败了李世石和2017年5月打败了柯杰的阿尔法狗,就是采用了谷歌的TPU系列芯片。
GoogleI/O-2018开发者大会期间,正式发布了第三代人工智能学习专用处理器TPU3.0。TPU3.0采用8位低精度计算以节省晶体管数量,对精度影响很小但可以大幅节约功耗、加快速度,同时还有脉动阵列设计,优化矩阵乘法与卷积运算,并使用更大的片上内存,减少对系统内存的依赖。速度能加快到最高100PFlops(每秒1000万亿次浮点计算)。
高通
在智能手机芯片市场占据绝对优势的高通公司,也在人工智能芯片方面积极布局。据
高通提供的资料显示,其在人工智能方面已投资了Clarifai公司和中国“专注于物联网人工智能服务”的云知声。
而早在2015年CES上,高通就已推出了一款搭载骁龙SoC的飞行机器人——SnapdragonCargo。高通认为在工业、农业的监测以及航拍对拍照、摄像以及视频新需求上,公司恰好可以发挥其在计算机视觉领域的能力。此外,高通的骁龙820芯片也被应用于VR头盔中。事实上,高通已经在研发可以在本地完成深度学习的移动端设备芯片。
NervanaSystems
Nervana创立于2014年,公司推出的TheNervanaEngine是一个为深度学习专门定制和优化的ASIC芯片。这个方案的实现得益于一项叫做HighBandwidthMemory的新型内存技术,这项技术同时拥有高容量和高速度,提供32GB的片上储存和8TB每秒的内存访问速度。该公司目前提供一个人工智能服务“inthecloud”,他们声称这是世界上最快的且目前已被金融服务机构、医疗保健提供者和政府机构所使用的服务。他们的新型芯片将会保证Nervana云平台在未来的几年内仍保持最快的速度。
Movidius(被Intel收购)
2016年9月,Intel发表声明收购了Movidius。Movidius专注于研发高性能视觉处理芯片。其最新一代的Myriad2视觉处理器主要由SPARC处理器作为主控制器,加上专门的DSP处理器和硬件加速电路来处理专门的视觉和图像信号。这是一款以DSP架构为基础的视觉处理器,在视觉相关的应用领域有极高的能耗比,可以将视觉计算普及到几乎所有的嵌入式系统中。
该芯片已被大量应用在Google3D项目的Tango手机、大疆无人机、FLIR智能红外摄像机、海康深眸系列摄像机、华睿智能工业相机等产品中。
IBM
IBM很早以前就发布过watson,投入了很多的实际应用。除此之外,还启动了类脑芯片的研发,即TrueNorth。
TrueNorth是IBM参与DARPA的研究项目SyNapse的最新成果。SyNapse全称是SystemsofNeuromorphicAdaptivePlasticScalableElectronics(自适应可塑可伸缩电子神经系统,而SyNapse正好是突触的意思),其终极目标是开发出打破冯·诺依曼体系结构的计算机体系结构。
ARM
ARM推出全新芯片架构DynamIQ,通过这项技术,AI芯片的性能有望在未来三到五年内提升50倍。
ARM的新CPU架构将会通过为不同部分配置软件的方式将多个处理核心集聚在一起,这其中包括一个专门为AI算法设计的处理器。芯片厂商将可以为新处理器配置最多8个核心。同时为了能让主流AI在自己的处理器上更好地运行,ARM还将推出一系列软件库。
CEVA
CEVA是专注于DSP的IP供应商,拥有众多的产品线。其中,图像和计算机视觉DSP产品CEVA-XM4是第一个支持深度学习的可编程DSP,而其发布的新一代型号CEVA-XM6,具有更优的性能、更强大的计算能力以及更低的能耗。
CEVA指出,智能手机、汽车、安全和商业应用,如无人机、自动化将是其业务开展的主要目标。
MIT/Eyeriss
Eyeriss事实上是MIT的一个项目,还不是一个公司,从长远来看,如果进展顺利,很可能孵化出一个新的公司。
Eyeriss是一个高效能的深度卷积神经网络(CNN)加速器硬件,该芯片内建168个核心,专门用来部署神经网路(neuralnetwork),效能为一般GPU的10倍。其技术关键在于最小化GPU核心和记忆体之间交换数据的频率(此运作过程通常会消耗大量的时间与能量):一般GPU内的核心通常共享单一记忆体,但Eyeriss的每个核心拥有属于自己的记忆体。
目前,Eyeriss主要定位在人脸识别和语音识别,可应用在智能手机、穿戴式设备、机器人、自动驾驶车与其他物联网应用装置上。
苹果
在iPhone8和iPhoneX的发布会上,苹果明确表示其中所使用的A11处理器集成了一个专用于机器学习的硬件——“神经网络引擎(NeuralEngine)”,每秒运算次数最高可达6000亿次。这块芯片将能够改进苹果设备在处理需要人工智能的任务时的表现,比如面部识别和语音识别等。
三星
2017年,华为海思推出了麒麟970芯片,据知情人士透露,为了对标华为,三星已经
研发了许多种类的人工智能芯片。三星计划在未来三年内新上市的智能手机中都采用人工智能芯片,并且他们还将为人工智能设备建立新的组件业务。三星还投资了Graphcore、深鉴科技等人工智能芯片企业。