自从中兴被美国禁售芯片而停摆开始,关于中国“缺芯”的讨论就从未停止。7月15日,中兴发布通告称,美国商务部工业安全局已将中兴通讯从《禁止出口人员清单》 中移除,此举标志着中兴正式解禁。此围虽解,但中国芯片破局之路仍困阻重重。
芯片行业遵循特殊的经济规律,技术是影响这一规律的主导因素。试图“入局”的投资人想要看清市场,就必须从了解半导体芯片技术开始。
分享人:张书嘉 Morris,亚马逊AWS中国负责VC战略团队、科学院国家重点实验室研究员、连续创业者。
某行业工控技术认证专家、国家重点实验室研究员、香港摄影师协会记者;
投资领域:AI(自主系统和人机交互)、芯片/半导体、IoT/工业化(传感/通讯/程控/新兴业态)、密码学、数据科学;
早期担任大学教师;后供职科学院某国家重点实验室,担任课题主管;曾在某A股上市企业担任助理总裁及架构师团主任,后创业被收购。随后加入Oracle产品战略团队,其后加入360集团,主持云产品战略与投资协同团队;现供职于亚马逊AWS中国。
我是亚马逊的张书嘉, 今天与大家分享的话题是对于半导体这一垂直领域的技术分享以及对未来业态的认识 ,它们与我曾在科学院实验室的经历以及后来的创业项目和投资方向有关。
半导体芯片是一个产业环节密集的链条,广义上细分很多领域:如分立器件、微架构设计、传导材料、数字芯片、网络芯片、功率器件、模组上下游等。
从投资视角看,聚焦在新兴互联网模式的金融商科朋友,大家更倾向投一个幅面或狙击某点,利用矩阵或概率胜出抵消风险。面对垂直领域,大家往往由点连线,洞察一条细分赛道,在产业上下游寻找机会和对冲风险。
半导体芯片是典型的垂直专业领域,偏好不同的投资人在其中挑选的投资门类也不同,譬如IC(集成电路)制造遵循传统的经济规律和公允价值,更适合了解传统模式而非追求先进理念的投资人,而高端IP/制程/材料则正在打破传统Design rules,吸引更多关注未来科技的投资人,并获得更高的技术溢价。
半导体芯片产业宏观回顾
有数据显示,2017年我国半导体产业持续繁荣,行业工增(工业增加率:工业增加率是指在一定时期内工业增加值占同期工业总产出的比重,即企业实现的价值占产品总价值的比重)提升超过10%,对PPI生产价格指数产生了正面影响。
与之形成鲜明对比的是,2016年中国进口半导体金额为2300亿美元,这项花费几乎是2016年排在第二位的我国原油进口金额的两倍。
AI的兴起大背景是端侧智能化市场供需的繁荣以及整机市场的繁荣。而后者是WTO给予的策略性纵容 ―― 纵容发展中国家的整机产业繁荣,但制约在高端成果和制程工艺的知识产权。
国内半导体行业如此繁荣,每年却仍需花费大量外汇进口,这种情况反映在一个问题:“半导体产业的缺项,大量核心装备不能自产”。
出于本土产业演进的势能和节约外汇的必要,进口替代成为今天每位投资人都会讨论的话题。
目前这方面做得务实的是华为,它调研或测试了国内大量优秀IP,其中寒武纪的IP就曾被用于海思Kirin 970上。但在核心网部分,短期内只能实现对光电模块的规模化进口替代。
过去几年,国家大基金在半导体领域投资了千亿人民币。出于升级固定资产和基础设施的必要性,在早期主要围绕在制造厂、封装厂、FAB设计厂投资,在高端设计方面投的比较少,因为这类公司较轻。因而大基金投IC制造的标的较多,国家战略是重资产,大投入,长期投资由国家来做,并作为引导作用。但大基金的投资是有步骤推进的,今后会向设计和材料方向聚焦;对于那些从事IC设计的轻公司的扶持,主要依靠民间资本。
国内不少一线IC公司,普遍在中低端制程,他们主要的竞争对手集中在亚洲,因为欧美国家的芯片制造业大多已经转移到了亚洲,美国自己都不太做生产了,INTEL等IDM公司自己会做一些,我国这些中低端制程的工厂只是在与亚洲人抢生意。我们真正的高端设计投的少,高端制程更是少。
数字芯片领域遵循的特殊经济规律
投资人面对芯片项目,通常抉择两个问题:1、一个周期内这一领域是否可实现进口替代? 2、这一行业遵循何种经济规律、它的估值理据和经济效益来源于何处?
关于第一个问题,答案是犹豫的,中短时期内,至少Logic IC产业难以实现规模化的进口替代。而该行业的经济规律与效益产生则较为复杂。
众所周知的半导体领域的“摩尔定律”:当价格不变时,集成电路上可容纳的元器件数目,每隔约18-24个月便会增产一倍,性能也将提升一倍。换言之,每一美元所能买到的计算性能,将每隔18-24个月翻倍。有人据此估算半导体行业的经济效益,甚至周期指数。但是当新制程出现时、新的design rules更迭时、晶圆库存短缺时、演进速度加快时,这一规律会发生波动,波谷之下的企业往往命运多舛。
因此评估半导体产业的效益产生,以及中短期的成长性与投资潜力,需要从每个细分领域解读并梳理行业宏观背景,并懂得认识“IP”的来源和价值。
首先在芯片设计角度,芯片是在原始晶圆上完成集成电路蚀刻并切割下来封装好的东西,有大小,有实体,有引脚并可以加电运行的单元,其最为核心的IP是微架构(又称内核),即芯片内部的一堆RTL级/门级代码,它被用来描述处理器内部的流水、执行单元、寄存器关系等内容,例如Cortex A57、Intel Haswell。由这种微架构进化出的产品芯片有很多,比如Kirin、Qualcomm 8系列等。目前高端的微架构IP普遍被传统大厂所统治。而主流的成长期创业团队会聚焦在微架构设计、EDA优化、工具链、乘法器、存储单元、NPU/专规芯片以及演化而生的ASIC/SOC等方向的创新实践。
从IC制程角度看。业内一般采用“xx纳米单位”标注IC工艺制程或代差,“纳米尺寸”并非指代晶体管间的连线线宽,而是指芯片内晶体管栅极(门电路开关)之间的最小长度(沟道的宽长),实际设计中,除了栅极,其它的设计尺寸一般都会大于工艺节点尺寸。理论上讲,这一间距愈短愈好,但在实际设计中,其传导电流受很多因素影响,比如载流子迁移率的降低(较高的迁移率意味着降低功耗,提高器件的电流承载能力,提高晶体管的开关转换速度等)、绝缘体电容和各种非理性的传导效应的制约,这些物理问题会限制IC制程的发展,对摩尔定律的演进产生负面影响,它们往往是由工艺本身的物理属性决定,往往是不可设计的。
但这些都是针对数字电路而言,新工艺的演进对模拟电路影响不大。因为相对于数字电路,模拟电路通常需要驱动更大的负载,因而使用大尺寸的器件(柔性材料亦同,考虑材料的延展性,器件不会做到纳米尺度)。
在工艺和材料升级方面有无解决这些问题的方法?有的,减小晶体管栅极之间沟道的宽长比,改良传导介质和电场设计。如果宽长比足够小,单位面积上晶体管容积率会增高,芯片性能也会提升,从而扩大溢价空间;同一块晶圆就能塞下更多同样功能的芯片,芯片的价格就越便宜,这种推导符合摩尔定律描述的路线。因此,大量的芯片制造厂都在追求这一物理极限(新工艺在控制隧穿漏电、截止频率方面优于老工艺,一般工作电压也会稍稍降低,设计出来的芯片功耗能够更低,工作频率能够更高。这些功耗下降是指数级的,而电子迁移率是千倍提升;所以拼命追求此极限)。 然而,在过程中又产生了新的问题:在这一微观尺度,传导材料变得不再可靠,某些电子在电场内的运动秩序发生畸变,直观的引发了量子隧穿效应,而正是它阻碍了IC设计的演进和摩尔定律的经济效益。
行业内规模化量产的IC制程,基本上在发展到28纳米-25纳米-16纳米过程中便先后遭遇这一门槛,驱动design rules的更迭,进而迫使半导体产业在过去几年出现重大技术变革。变革体现在两方面:1、传导介质:尝试用不同传导介质代替硅基介质,如掺杂稀土元素的High K基(HKMG);2、栅极构型:改变了传统的平面栅极结构,增加栅极的接触面积及传导效率;本质上讲,这一变革同样是为了应对隧穿电子的威胁。例如FinFET三面栅极、GAA环绕栅极构型等。
如今的IC制程已然突破了7纳米;三星近期宣称将在未来几年实现5纳米——3纳米的IC制程,但一个现实问题在于,实现如此精细的制程后,芯片的良品率(Yield)、效能比、增效是否会继续维持或提升?它同样是IC制程发展过程中需要评估的节点。如果增产率和效能比上不去,这类精细制程就失去意义,破坏了摩尔定律的经济效益 ――― 从前的惯例,线宽28:22,在die上面就是同一晶圆面积有9倍器件的产出,现在没有这么高的放大率了。
对于良品率,低的话,收益率就低,因为制约了单位面积上的增产;譬如你shrink一次,单片晶圆上多6倍产出(器件数量),然而Yield低于20%,那么只相当于多出近20%增产,一张大晶圆,要报废80%+的面积,就是负收益,各厂商就在此制程上“比亏”了,三星3nm足够高调,若亏的起可以赌一次。所以,如今器件间距,都给量子效应限制了,Design rules大改(对IDM或Foundry都是惊天变化), shrink的回报就有可能是负的。以某一线IDM的历史经验,算上研发成本摊薄,每次shrink不能在单位面积上增产30%元器件就必亏。这意味着,良品率越来越低,更成了增产目标的绝对障碍了。
因而对于芯片制造厂而言,快速的升级迭代制程和工艺是存亡之举,唯有在产业变革的节点获取技术升级的先机,才有可能提升capacity utilization,并最终创造效益;显然,国内一些主流的、利用率几乎低于80%的厂商早已认识到风险。
此外,IC产业是有周期性的,design有life cycle,几十年前的设计可能还在卖,就是量缩了许多;从每个周期底部爆出来的大兼并就得出,单件IC的rev越来越少,所以必须兼并 ,保持IP规模,Microsemi已经是3-4次兼并的结果了,Broadcom的策略也是如此,库存设计越来越多,单件收入越来越低。
另外,介质材料科学也在演进,GaN, GaAs当然更好,激发电流更低,光电转换效率更优。但目前都用在功率器件;比如用GaN做VCSEL的,LED是被替代是趋势,VCSEL的量产成本更低。其技术核心是核心半导体器件与光电耦合部分。
总结:摩尔定律是什么?就是讨论Real estate business中的经济效益。
理论上讲,单位面积上的晶体管集成数量愈多,晶圆利用率愈高,就能带来更多优势:功耗会更低、载流子迁移率更高、增产率更高、成本缩控、溢价提高。然而实际上,IC制程的迭代映射了市场供需因素,引发了其经济效益比值和规则的波动。所以在半导体产业中,效能比和增产率是技术演进的重要因素。
短期内,我国无法实现高端数字芯片的进口替代,尤其是在国际大厂已经开始技术变革的今天,我国的芯片制造厂处于加速成长状态,设计和制程工艺还会遭遇国际大厂技术变革后带来的冲击。
非易失内存带来的新机遇
存储行业为很多采用中低端制程的企业创造了生存空间,包括数家上市公司以及一些原生于华强北的成长期企业等,他们从国外高端片厂回收废片,为这些废片研发控制器技术,进而满足市场供需。
当然,高端片厂不会纵容某个单一控制器厂商的无限扩张,不会任由他们侵吞疆域。前者会用废片库存冲击中低端市场的佼佼者,限制供给,约束他们的商业版图。但由于高端产品的升级,这些回收废片的中低端片厂的生存空间也受到挤压,譬如美光与英特尔的合作,目前可以量产单颗粒1T的消费级存储芯片。
作为一则笑谈,技术上讲,制造Flash Mem比制造逻辑电路更好一点。因为逻辑电路logic坏一点,整个产品就报废了。而Memory是模块化的,单个block坏了,其它部分还能继续用:)
当然,Memory市场也存在未来科技和先进模式的演进。在过去十年间,NVM非易失内存技术(在断电情况下仍能保持所存储的数据信息的存储器)在快速演进,但是半导体大厂往往隐晦NVM技术的未来想象力和应用领域,只是将其作为传统SSD(固态存储)市场的迭代品(为了赢得机械介质在1TOPS瓶颈问题后的市场拐点,而Amazon AWS早已在这个容量节点放弃了机械介质)。
非易失内存的特点在于:速度快、掉电数据保存、可大范围寻址,并可以支持PCIe和DIMM接口。在这种技术背景下,某些一线IDM厂商也在回避一个问题:他们与OS应用软件厂商的合作可能被这类存储技术颠覆。从操作系统角度看,这类存储器令内存和硬盘的界限变得模糊:系统引导、虚拟内存、OS启动动作也变得可有可无,传统操作系统的价值被降低,这就等于挑战了传统软件市场,遗弃了源自平台的负担和掣肘。然而未来,Process in memory,一切皆是container+Images化,譬如一个BSD调用一堆存储镜像即可(包含:数据集/APP/Run time)。某国外大学实验室为此跑过Simulation,着实大幅下降OS的overhead。所以,主流存储芯片厂商均在回避这一话题,但非易失内存的应用场景仍普遍存在。这个行业,正确打法先是用NVM技术切storage,再逐步替代RAM,直接侵掠DRAM就会招致各方敌对。当然,在未来一段时间,当NVM的主要技术流派(阻变与相变)趋向成熟时,第一个突变会发生在对OS不敏感的云计算端产生。
AI背景下各类芯片方向的观察
目前的AI芯片创新,亦遵循摩尔定律的基础,亦遵循SIMP和冯氏的传统。但AI专用芯片领域并未处于一种蒸蒸日上的“业态”之中,它仍在起步成长阶段。未来,我们需要看到底层架构、IC设计、计算优化和存储架构的转变,AI芯片的繁荣建立在这些转变之后。
对于芯片IP的集成化带来的效能比和成本的优化不言而喻,但单个IP的价值或周期价值已然不大,SoC自然是主流。但若要谈到FPGA,它其实是小批量,频繁迭代的异构设计,若要预期FPGA市场的攀升,FPGA云不会是风向标,FPGA云仅对AI领域还在快速演进的应用有价值,对已固化的算法应用要看是否会引入廉价的ASIC竞争,就是说,一旦端侧或IoT的市场格局平稳,硬件创新和分布几近饱和,产业向服务转型的时候,对于FPGA云的供需就几乎不在了,可以考察一下国内IC经销商的SKU数。当然有些场景下ASIC并不适合,此类不一一赘述。
另外,目前大厂的主流声音是DLA的开放,例如Nvidia独占了模型训练市场3-5年了,唯一对手就剩下TPU,因而没必要再砸巨资挖护城河了,做DLA生态就好了。ARM和高通也在逐步开放DLA。
谈到过去一年,市场对语音芯片和视觉芯片的投入不少。
首先,语音上云是偏伪的概念。semantic语义识别问题未能完美解决,亚马逊、谷歌和微软均未突破一个统计置信区间,因此RNN在端侧跑起来意义不大。关于TCN时间卷积网络,去年底就出现CNN在语音方向替代RNN/LSTM的迹象,但还要评估semantic成果,几个%没有意义,要的是置信区间,跨度很大。如今多个NLP厂商(包括视觉厂商)若没有后台成千上万的人工标注也很难有所成效,而Google在尝试让这些工作由AI完成,所谓AI for AI。
相比之下,图像识别反而成熟很多,算法前置可以减压,降低风险过度集中问题。
随着5G的到来,有人认为未来的端侧芯片市场会弱化,因为较高质量的通讯效率会使得主要计算任务由云端承载。我并不同意这一观点:首先,端侧用户体会不到云端芯片性能提升带来的增效(如高清HDR片源在云端播放或游戏场景在云端渲染并不会反映到端侧体验)。其次,诸如车载雷达这样的设备,假设一个LiDAR是7Mbps,整车5-7个LiDAR,假设车速40mph,用5G上云的话,那么刹车距离是多少?
准备在芯片领域深耕的投资人,可以利用这样一个公式考察行业:算力与功耗及花费的对比。 例如,2017年行业将进入一个算力节点:每生产1T算力需要消耗1瓦特功耗和1美金成本。我们希望在2018年这一算力节点能够发展到:每生产2T算力需要消耗1瓦特功耗和1美金成本。所以现在各个制造厂比拼的不仅是性能,而是在性能提升过程中的功耗趋势和增产趋势。芯片的PPA评价三要素: 性能、功耗、面积。
原题:亚马逊中国 张书嘉: 数字芯片的进口替代任重道远,Design Rules的更迭对于IP需求适用、产能支持与效益的挑战