AI芯片的架构是怎么样的?和传统芯片有何区别?

前几天成立仅两年国内专做人工智能FPGA加速算法的初创公司深鉴科技被国际巨头赛灵思收购了,在业界引起不小的震动。目前国内做AI芯片的公司可谓不少了,AI芯片已然成为了当下芯片行业最热领域。但是大部分人对AI芯片的架构应该都不是太了解。


那么AI芯片和传统芯片有何区别?AI芯片的架构到底是怎么样的?带着这个疑问小编搜集到了来自知乎上的一些业内行家的观点,现在整理转发给大家。先回答问题:


性能与传统芯片,比如CPU、GPU有很大的区别。在执行AI算法时,更快、更节能。


工艺没有区别,大家都一样。至少目前来看,都一样。


所谓的AI芯片,一般是指针对AI算法的ASIC(专用芯片)。传统的CPU、GPU都可以拿来执行AI算法,但是速度慢,性能低,无法实际商用。


比如,自动驾驶需要识别道路行人红绿灯等状况,但是如果是当前的CPU去算,那么估计车翻到河里了还没发现前方是河,这是速度慢,时间就是生命。如果用GPU,的确速度要快得多,但是,功耗大,汽车的电池估计无法长时间支撑正常使用,而且,老黄家的GPU巨贵,经常单块上万,普通消费者也用不起,还经常缺货。另外,GPU因为不是专门针对AI算法开发的ASIC,所以,说到底,速度还没到极限,还有提升空间。而类似智能驾驶这样的领域,必须快!在手机终端,可以自行人脸识别、语音识别等AI应用,这个必须功耗低,所以GPU OUT!开发ASIC就成了必然。


说说,为什么需要AI芯片。AI算法,在图像识别等领域,常用的是CNN卷积网络,语音识别、自然语言处理等领域,主要是RNN,这是两类有区别的算法。但是,他们本质上,都是矩阵或vector的乘法、加法,然后配合一些除法、指数等算法。


一个成熟的AI算法,比如YOLO-V3,就是大量的卷积、残差网络、全连接等类型的计算,本质是乘法和加法。对于YOLO-V3来说,如果确定了具体的输入图形尺寸,那么总的乘法加法计算次数是确定的。比如一万亿次。(真实的情况比这个大得多的多)


那么要快速执行一次YOLO-V3,就必须执行完一万亿次的加法乘法次数。


这个时候就来看了,比如IBM的POWER8,最先进的服务器用超标量CPU之一,4GHz,SIMD,128bit,假设是处理16bit的数据,那就是8个数,那么一个周期,最多执行8个乘加计算。一次最多执行16个操作。这还是理论上,其实是不大可能的。


那么CPU一秒钟的巅峰计算次数=16* 4Gops =64Gops。这样,可以算算CPU计算一次的时间了。同样的,换成GPU算算,也能知道执行时间。因为对GPU内部结构不熟,所以不做具体分析。


再来说说AI芯片。比如大名鼎鼎的谷歌的TPU1。TPU1,大约700M Hz,有256X256尺寸的脉动阵列,如下图所示。一共256X256=64K个乘加单元,每个单元一次可执行一个乘法和一个加法。那就是128K个操作。(乘法算一个,加法再算一个)。


AI芯片的架构是怎么样的?和传统芯片有何区别?_人工智能_AI+


另外,除了脉动阵列,还有其他模块,比如激活等,这些里面也有乘法、加法等。


所以,看看TPU1一秒钟的巅峰计算次数至少是=128K X 700MHz=89600Gops=大约90Tops。


对比一下CPU与TPU1,会发现计算能力有几个数量级的差距,这就是为啥说CPU慢。


当然,以上的数据都是完全最理想的理论值,实际情况,能够达到5%吧。因为,芯片上的存储不够大,所以数据会存储在DRAM中,从DRAM取数据很慢的,所以,乘法逻辑往往要等待。另外,AI算法有许多层网络组成,必须一层一层的算,所以,在切换层的时候,乘法逻辑又是休息的,所以,诸多因素造成了实际的芯片并不能达到利润的计算峰值,而且差距还极大。


可能有人要说,搞研究慢一点也能将就用。目前来看,神经网络的尺寸是越来越大,参数越来越多,遇到大型NN模型,训练需要花几周甚至一两个月的时候,你会耐心等待么?突然断电,一切重来?曾经动手训练一个写小说的AI,然后,一次训练(50轮)需要大约一天一夜还多,记得如果第一天早上开始训练,需要到第二天下午才可能完成,这还是模型比较简单,数据只有几万条的小模型呀。


修改了模型,需要几个星期才能知道对错,确定等得起?突然有了TPU,然后你发现,吃个午饭回来就好了,参数优化一下,继续跑,多么爽!


计算速度快,才能迅速反复迭代,研发出更强的AI模型。速度就是金钱。


GPU的内核结构不清楚,所以就不比较了。肯定的是,GPU还是比较快的,至少比CPU快得多,所以目前大多数都用GPU,这玩意随便一个都能价格轻松上万,太贵,而且,功耗高,经常缺货。不适合数据中心大量使用。


总的来说,CPU与GPU并不是AI专用芯片,为了实现其他功能,内部有大量其他逻辑,而这些逻辑对于目前的AI算法来说是完全用不上的,所以,自然造成CPU与GPU并不能达到最优的性价比。


谷歌花钱研发TPU,而且目前已经出了TPU3,用得还挺欢,都开始支持谷歌云计算服务了,貌似6点几美元每小时吧,不记得单位了,懒得查。可见,谷歌觉得很有必要自己研发TPU。


目前在图像识别、语音识别、自然语言处理等领域,精度最高的算法就是基于深度学习的,传统的机器学习的计算精度已经被超越,目前应用最广的算法,估计非深度学习莫属,而且,传统机器学习的计算量与 深度学习比起来少很多,所以,我讨论AI芯片时就针对计算量特别大的深度学习而言。毕竟,计算量小的算法,说实话,CPU已经很快了。而且,CPU适合执行调度复杂的算法,这一点是GPU与AI芯片都做不到的,所以他们三者只是针对不同的应用场景而已,都有各自的主场。


    至于为何用了CPU做对比?  


而没有具体说GPU。是因为,我说了,我目前没有系统查看过GPU的论文,不了解GPU的情况,故不做分析。因为积累的缘故,比较熟悉超标量CPU,所以就用熟悉的CPU做详细比较。而且,小型的网络,完全可以用CPU去训练,没啥大问题,最多慢一点。只要不是太大的网络模型。


那些AI算法公司,比如旷世、商汤等,他们的模型很大,自然也不是一块GPU就能搞定的。GPU的算力也是很有限的。


    至于说CPU是串行,GPU是并行  


没错,但是不全面。只说说CPU串行。这位网友估计对CPU没有非常深入的理解。我的回答中举的CPU是IBM的POWER8,百度一下就知道,这是超标量的服务器用CPU,目前来看,性能已经是非常顶级的了,主频4GHZ。不知是否注意到我说了这是SIMD?


这个SIMD,就代表他可以同时执行多条同样的指令,这就是并行,而不是串行。单个数据是128bit的,如果是16bit的精度,那么一周期理论上最多可以计算八组数据的乘法或加法,或者乘加。这还不叫并行?只是并行的程度没有GPU那么厉害而已,但是,这也是并行。


    不知道为啥就不能用CPU来比较算力?  


有评论很推崇GPU。说用CPU来做比较,不合适。GPU本来是从CPU中分离出来专门处理图像计算的,也就是说,GPU是专门处理图像计算的。包括各种特效的显示。这也是GPU的天生的缺陷,GPU更加针对图像的渲染等计算算法。但是,这些算法,与深度学习的算法还是有比较大的区别,而我的回答里提到的AI芯片,比如TPU,这个是专门针对CNN等典型深度学习算法而开发的。另外,寒武纪的NPU,也是专门针对神经网络的,与TPU类似。


谷歌的TPU,寒武纪的DianNao,这些AI芯片刚出道的时候,就是用CPU/GPU来对比的。


看看,谷歌TPU论文的摘要直接对比了TPU1与CPU/GPU的性能比较结果,见红色框:


AI芯片的架构是怎么样的?和传统芯片有何区别?_人工智能_AI+


这就是摘要中介绍的TPU1与CPU/GPU的性能对比。再来看看寒武纪DianNao的paper,摘要中直接就是DianNao与CPU的性能的比较,见红色框:


AI芯片的架构是怎么样的?和传统芯片有何区别?_人工智能_AI+


    回顾一下历史  


上个世纪出现神经网络的时候,那一定是用CPU计算的。


比特币刚出来,那也是用CPU在挖。目前已经进化成ASIC矿机了。比特大陆了解一下。


从2006年开始开启的深度学习热潮,CPU与GPU都能计算,发现GPU速度更快,但是贵啊,更多用的是CPU,而且,那时候GPU的CUDA可还不怎么样,后来,随着NN模型越来越大,GPU的优势越来越明显,CUDA也越来越6,目前就成了GPU的专场。


寒武纪2014年的DianNao(NPU)比CPU快,而且更加节能。ASIC的优势很明显啊。这也是为啥要开发ASIC的理由。


至于说很多公司的方案是可编程的,也就是大多数与FPGA配合。你说的是商汤、深鉴么?的确,他们发表的论文,就是基于FPGA的。


这些创业公司,他们更多研究的是算法,至于芯片,还不是重点,另外,他们暂时还没有那个精力与实力。FPGA非常灵活,成本不高,可以很快实现架构设计原型,所以他们自然会选择基于FPGA的方案。不过,最近他们都大力融资,官网也在招聘芯片设计岗位,所以,应该也在涉足ASIC研发了。


如果以FPGA为代表的可编程方案真的有巨大的商业价值,那他们何必砸钱去做ASIC?


说了这么多,我也是半路出家的,因为工作需要而学习的。按照我目前的理解,看TPU1的专利及论文,一步一步推导出内部的设计方法,理解了TPU1,大概就知道了所谓的AI处理器的大部分。


然后研究研究寒武纪的一系列论文,有好几种不同的架构用于不同的情况,有兴趣可以研究一下。然后就是另外几个独角兽,比如商汤、深鉴科技等,他们每年都会有论文发表,没事去看看。这些论文,大概就代表了当前最先进的AI芯片的架构设计了。


当然,最先进,别人肯定不会公开,比如谷歌就不曾公开关于TPU2和TPU3的相关专利,反正我没查到。不过,没事,目前的文献已经代表了最近几年最先进的进展了。


新冠肺炎席卷全球,这场疫情不仅对全球的需求、物流和供应链造成短期冲击,也对科技、外贸和消费产业造成一定影响。


但历史经验表明,危险与机遇相伴而生,每一轮危机过后,会有新的经济动量释放活力。


近日,中央召开会议,其中多次提及,在做好防控新冠疫情的前提下,让企业有序复工复产,并加快5G网络、数据中心等新型基础设施建设(以下称“新基建”)进度。


“新基建”功在当下,利在长远,旨在构建数字经济时代的关键基础设施,推动实现经济社会数字化转型。只有夯实“新基建”才有望掌握数字经济时代的“命门”,在未来发展中占据主动。


其中,5G是绕不开的话题,作为“新基建”产业的核心、通信基础设施建设的重要组成部分,只有高效的5G网络才能让物联网、人工智能、工业互联网形成万物无缝互联的状态。5G网络下的数据量是非常巨大的,但骨干网络扩容成本高、延迟大,容易导致数据在边缘侧形成“堰塞湖”。


这意味着,数据不能全部上传到云端再进行处理,无论是出于隐私保护,还是实时处理的要求,都不得不在边缘侧就对数据进行处理。


这时,边缘计算将势在必行。


所谓边缘计算(Edge Computing),就是在云、互联网的边缘侧进行计算,其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求,让终端设备真正实现智能。


据调研机构CB Insights预测,到2023年,全球边缘计算行业整体市场容量有望达到340亿美元,或将超越云计算规模。


AI芯片的架构是怎么样的?和传统芯片有何区别?_人工智能_AI+


AI芯片在边缘计算中是提供算力的灵魂和大脑,承载了为各种终端提供强大算力的重要任务。在各个场景中,智能设备能够发挥“智能”的作用,少不了要依托于算力强大的芯片。不过,由于芯片研发需要大量资金及技术实力,综合来看,国内选择自主研发芯片的企业并不多。


国内代表企业有地平线、寒武纪、比特大陆等,CV四小龙之一的依图也发布了云端定制SoC芯片“求索”。近日,随着原合作伙伴寒武纪冲击科创板,华为海思也加快了自研AI芯片的步伐。


各家的技术路线和商业化路线都各有不同。但整个赛道面临着研发成本高、技术门槛高、商业化落地难的困境。


其中,2015年成立的地平线,作为最早致力于自研边缘AI芯片的企业,经过5年的发展,已经获得了英特尔、SK海力士以及多家中国一线汽车集团的战略投资,成为了全球估值最高的AI芯片创业企业;成功量产了两代边缘AI芯片,构建了比较完整的产品线;也明确了自身“一横一纵”的商业化发展路线,在全球范围内同奥迪、长安、红旗、佛吉亚、SK电讯、小米等行业头部玩家深入合作。其背后的产品研发和商业化战略,值得AI芯片创业企业借鉴。


    自研边缘AI芯片,走“一纵一横”商业化之路  


2月19日,全球半导体行业杂志《EE Times》(电子工程专辑)发布文章,在全球范围内筛选出十家具有发展前景的AI芯片初创企业,其中,地平线作为边缘AI芯片创业公司代表,同Graphcore、Groq等国际AI芯片公司一同入选。


事实上,地平线是中国最早开展人工智能芯片研发、商业化的创业公司之一。而在创业初期,地平线就瞄准了边缘AI芯片这一方向。


地平线创始人兼首席执行官余凯曾在一次演讲中公开表示:“在地平线成立之初,我们就在思考,我们要做一家不一样的公司。”


正如余凯所述,地平线的确做到了“不一样”。地平线的边缘计算产品从初期就瞄准了专用方向。成立短短五年,地平线相继推出多款边缘AI芯片,并开始AI生态布局:在AI芯片领域,地平线的征程和旭日系列AI芯片已先后迭代至第二代,并均已实现量产落地;依托强大的软硬件开发能力,地平线发布了全新的天工开物AI开发平台,全面降低开发者门槛、提升开发速度,着手布局AI开放生态。


目前,地平线已打造了成熟的边缘AI芯片+算法+工具链组成的基础技术平台,向行业提供边缘AI芯片,开放易用的工具链,丰富的算法模型样例,以及全面的赋能服务。


虽然最引人关注的是AI芯片,但其实可以看出,地平线并不是单纯的芯片公司,而是一家赋能型的平台工具型企业,通过“一横一纵”的商业化战略的实施,以边缘人工智能芯片为核心,承托起整个产业,加速智能化进程。


所谓“一横一纵”,是地平线基于“成为机器人时代的Wintel”的未来愿景推出商业化路径。其中,“一横”指的是包括高效能边缘AI芯片、开放工具链、丰富算法样例等在内的开放的边缘AI平台。通过平台开放赋能丰富的边缘计算应用场景,为AI的应用创新提供底层能力。“一纵”是在边缘AI平台之上,基于地平线的核心优势,从最具挑战也是最具市场潜力的应用场景入手,推出杀手级应用——搭建以车载人工智能计算为主要切入点的垂直解决方案,从L2的辅助驾驶到L3半自动驾驶、高等级L4、L5无人驾驶,形成地平线商业化的“护城河”。


    智能驾驶上的实战演习  


今年3月,长安发布首款搭载国产人工智能芯片的智能汽车——长安UNI-T,这款车型采用长安和地平线联合开发的智能驾驶舱NPU计算平台,内置中国首款车规级AI芯片——地平线征程二代。自此,征程二代成为首个上车量产的国产AI芯片,地平线也开启车规级AI芯片的前装量产元年,实现了“从零到一的突破”。


这次合作意义非凡,是中国在硬科技征途上的又一里程碑,如果把过去发布征程芯片当成婴儿诞生的话,那量产上车,是这个孩子的一个重要成人礼。


事实上,在智能汽车领域,AI芯片就像密布在人类身体的神经元网络,只要触碰到相应的传感器,电信号快速奔跑在各个芯片之间,计算、判断、执行,都需要芯片与算法上的支持,驱动汽车才能够连接起来。但不同于其他电子行业,汽车电子有一套极高的标准,就是“车规级”。


“车规级”,像一道分水岭,划分着理想和现实,低端和髙端,新世界和老玩家,泾渭分明。


纵观整个行业,车载AI芯片正成为全球半导体产业玩家追逐的焦点,智能驾驶产业发展脉络也逐渐明朗。毫无疑问,伴随着技术进步与行业发展,车企急需推出自家的自动驾驶系统。如果所有数据都上传云端分析后再传回车辆终端,在造成带宽的浪费的同时,也增加了延时,并不满足自动驾驶的场景需求。


因此,地平线所提供高性能的边缘AI芯片和相关算法,解决低延时、高功耗的痛点问题,使得车企很快实现智能汽车大规模落地。


与传统的产业玩家不同,地平线以更加灵活开放的方式为这些车企提供解决方案,既可以通过边缘AI芯片+工具链的形式提供给客户,让车企进行自主开发定制化系统,做模型的调优等;也可以提供整套的算法方案,帮助车企和上层供应商一起开发智能汽车系统。


“地平线只做纯粹的人工智能产业底层赋能者,不做应用,不做通用型解决方案,也不会收集车企数据去开发,”余凯曾经公开表示。


所谓产业底层赋能者,即地平线定位于Tier2,基于自身的AI芯片产品和平台,将一套基础的“芯片+算法+工具链”底层技术开放给客户,做Tier1和OEM的AI赋能者。


目前,地平线已与多家国内头部整Tier1、车厂和科技公司开启合作,在全球范围内赋能包括SK 电讯、佛吉亚、奥迪、红旗、福瑞泰克、理想、嬴彻、首汽约车等。


地平线表示,2019年,该公司智能驾驶业务年内订单高达数亿元。并且随着更多项目逐步落地,预计今年有若干款主力车型量产芯片上车,2021年征程系列芯片年出货量将达到百万级别。两年内将芯片装车量有望达到百万,五年内则有望完成千万量级的目标。


    “新基建”中的边缘计算机遇  


中国经济正处于新旧动能转换的阶段,科技创新则是新经济的核心动力,也是时代的主旋律,“新基建”作为未来数字经济时代的底层动能再次被提到新高度。 而在“新基建”拉动产业升级的进程中,人工智能和5G的商业化必将加速,而边缘计算的价值亦将愈发凸显。


对于是否会在“新基建”领域发力,地平线表示,公司将坚持聚焦边缘AI芯片和解决方案,与5G的发展密切配合,赋能合作伙伴,从而打造边缘智能生态,助力新基建的推进。


目前,地平线已与中兴通讯达成战略合作,双方将在5G和边缘AI计算领域发力,加速C-V2X及5G技术升级,从而为涉及车与路的智能化改造打牢地基。


在五年前,AI创业潮始兴,互联网巨头都一窝蜂做云计算业务时,地平线独辟蹊径,选择了在当时还未被关注、却拥有无限应用场景的边缘端发力,从最底层的边缘AI芯片着手,解决数字经济时代最为紧迫的核心算力问题。五年后的今天,在产品化和商业化上一路领跑的地平线也交上了一份不错的答卷。


面对“新基建”产业浪潮,地平线如能把握时机,从边缘计算着手,做好底层赋能者,加速智能驾驶的应用落地和开放生态的拓建,成为机器人时代的Wintel的目标或许并不遥远。


从未来发展这个角度来说,地平线在边缘计算方面的技术和商业探索,或许会为中国迎来下一个产业转型的新机遇。

66
8
0
54

相关资讯

  1. 1、9000万美元的南柯梦,中年百度和它失败的并购2063
  2. 2、我国首个碳化硅新型充电桩示范工程在京启动328
  3. 3、又有三家企业宣布倒闭LED行业恶性竞争影响扩散2053
  4. 4、卷积神经网络可能会被与人类相同的视觉错觉所欺骗3351
  5. 5、新突破!新思科技推PrimeYield使芯片良率分析和优化快1000倍1703
  6. 6、凯瑞德宣布重组计划泡汤,市值腰斩两月蒸发30亿2737
  7. 7、中国铁塔拟赴港IPO多项因素困扰下能否迎春?1999
  8. 8、​三安光电发布半年报,营收净利均增长1000
  9. 9、2018甲骨文云大会:领创新·协同打造自治云管理平台4668
  10. 10、转型智能手表!Fossil可穿戴设备销售额达3亿美元3062
全部评论(0)
我也有话说
0
收藏
点赞
顶部