串行器/解串器(SerDes)电路多年来一直在帮助半导体移动数据,但新的工艺技术正迫使它以意想不到的方式进行调整和改变。传统上作为模拟电路实现的SerDes技术一直难以扩展,而低电压、变化和噪声则使其更难获得充分的收益。因此,为了保持相关性,它在架构上已经转变为复杂的混合信号电路,越来越多地依靠数字信号处理来处理半导体和通道中的不完美。
先进的封装对SerDes提出了新的要求,同时在涉及到异质模具时也提供了新的机会。现在,SerDes设计可以与核心设计解耦,从而可以为每一种设计提供最优化的工艺技术选择。但是,先进的包装也为模具之间的沟通创造了全新的需求。这究竟应该是一个并行的还是串行的通信通道,甚至电气通信是否具有长期的作用,陪审团仍未得出结论。
有一点是不变的,那就是移动数据的动力并没有放缓。"我们看到了对高速数据传输的巨大需求,"西门子业务公司Mentor的模拟Fast-SPICE产品线高级产品经理Greg Curtis说。"每天上传的照片多达20亿张。我看到,视频约占下游总流量的60%,尤其是人们在家办公的时候。然后你还要推动自动汽车的发展。所有这些数据都必须从应用程序传输到能够处理数据的东西。而这必须经过SerDes设计的发射器和接收器。这个管道正在成为传输所有数据的瓶颈,需要更高的带宽。"
在谈及单片集成和芯片小片之间的一些权衡之前,先看看SerDes电路中正在发生的架构变化是有益的。"直到几年前,SerDes都是相对简单的,"Silicon Creations的负责人和联合创始人Jeff Galloway说。"它们现在已经发展成为一个高端、复杂的PAM4系统。PCIe rev 5及以下版本的运行速度最高为每秒32千兆位,而且是两级SerDes,高级工艺对这些并没有什么帮助。超过每秒32千兆位,大多数SerDes都是PAM4。这种区别在架构上有很大的不同。"
传统的SerDes如图1所示。"上一代SerDes曾经是模拟的,你有连续时间线性均衡(CTLE)电路,它可以放大和部分均衡信号,"Synopsys公司高速SerDes IP产品营销经理Priyank Shukla解释说。"随后是一个进行1位决策的比较器和一个决策反馈均衡器(DFE)。时钟和数据恢复(CDR)也大多采用模拟实现。"
图1:SerDes的传统模拟实现。
问题是,在最新的节点中,模拟经历的变数比过去多得多。"数字设计比模拟设计更容易预测。"Mentor的Curtis说。"设计团队要尽量向数字方面转移,但仍有一些功能无法转化。"
从16nm开始,在速度大于56Gbps时,图2所示的架构更有可能被使用。
图2:混合信号SerDes框图。
"SerDes接收器基本上撤销了信道损伤,"Synopsys的Shukla说。"现在大部分工作都可以用数字方式完成。接收器只是有一个模数转换器(ADC)。这可以做出n位决定,并可以进行时间交错,以实现更高的数据速率。之后你就有了数字样本,可以用DSP来做处理,它的规模与技术很好。这包括一个前馈均衡器(FFE)。"
"这些设计是经过充分验证的。我们的56G和112G收发器已经转向基于ADC/DSP的接收均衡策略,"Xilinx技术营销经理Martin Gilpatric说。"这把很多通常是模拟电路的东西变成了数字逻辑。随着在这些最高速率下转向PAM4,其中利润率超级薄,我们能够绕过所有问题,并拥有一个非常强大的数字接收器。"
架构的选择和大量的工艺节点被积极使用,意味着这对SerDes IP供应商来说是个好时机。"需求量超过了行业所能满足的范围,"Silicon Creations的Galloway说。"例如,台积电正在增加22nm变体和低功耗变体。在40nm开发或28nm开发时,一些旧的技术和一些后来的PCIe标准还不成熟。PCIe 5.0要来了,我们已经过了16nm。在旧技术上有很多设计开始,所以基本上需要在旧节点上回填各种标准。"
新的挑战
较新的节点正在带来挑战。"底层晶体管不断变小,功率也越来越低,但互连却越来越差,"Galloway说。"你有复杂的布局效应与互连电阻和电容。它们有限制速度的效果,并因为额外的寄生而导致额外的功耗。"
Mentor的Curtis把这一点用数字来说明。"我们的一个客户提到,当从40nm到5nm时,互连电阻的增加,已经上升了7倍以上。这对线材的性能产生了限制--其实比设计更重要。"
但这并不是唯一一个数字对你不利的地方。"GDS层的数量正在大幅增加,"Curtis补充道。"当从180nm下降到5nm时,这增加了9倍。其影响是设计规则检查(DRC)的运行时间。从180nm降到16nm finFET,运行DRC检查所需的时间约为10倍。然后你从16降到5,又是10倍。"
另一个因素是噪声。"与先进工艺节点相关的噪声正在成为一个重大挑战,"Shukla说。"噪声是ADC中难以解决的问题。选择的架构是逐次逼近寄存器(SAR)型ADC。这是一种模块化的方法。你的时间交错了这个ADC的很多切片。对SAR的不同切片进行对齐是有挑战的,但这可以在数字中得到补偿。所以不管模拟提出什么挑战,我们都有办法补偿。这就是很多创新发生的地方。"
人们是有创造力的。"我们知道,在模拟设计中,特别是在SerDes中,可以使用一些巧妙的电路设计技术,在不影响性能的情况下继续支持先进的技术。"Mixel的首席执行官Ashraf Takla说。"例如,在使用I/O电压的同时堆叠薄型氧化物晶体管,是在先进技术中继续设计更高性能的SerDes IP的一种方式。"
新的晶体管可能带来新的挑战。"在最新的节点上,如果晶体管技术切换到栅极全能(GAA),那么从经济角度来看,将不可能以有意义的方式集成SerDes,"Fraunhofer IIS自适应系统工程部先进系统集成组组长兼高效电子学部门负责人Andy Heinig说。"必要的SerDes面积将增长或卡住,但GAA晶体管的成本更高。只有在使用缩放的情况下,GAA才有意义。从我们的角度来看,将这种系统中的SerDes集成在另一个芯片上,以一种专门的技术,并将其与GAA芯片结合起来,采用先进的封装技术,是有意义的。"
单片集成的案例
设计团队面临的一个新的决定是,他们是否应该将所有的东西都集成到一个单片芯片上,还是多芯片异构解决方案会带来好处。这两种选择之间的动态几乎每天都在变化。"多芯片封装如今非常昂贵,"Flex Logix的CEO Geoff Tate说。"在成本进一步降低之前,对成本敏感的应用将继续倾向于单片模。它当然更便宜,即使SerDes可能不是最佳选择。"
采用新节点的许多好处都与PPA的收益有关。"如果设计是纯模拟,那么从28nm到16nm再到7nm,除非电源电压发生变化,否则不会看到那么大的功耗节省。"Cadence产品营销总监Wendy Wu说。"基于DSP的设计,虽然还有相当大一块模拟电路,但40%到50%的电路是数字电路。因此,我们在降到更小的节点时,可以从面积和功率上获益。如果我们仍然是100%模拟,这种动机就会变弱,因为你不会看到太多的功率或面积优势。"
有时,单片机集成是唯一可接受的解决方案,这是有特定原因的。"我们特别选择了单片解决方案,因为在最低延迟、管理功耗和热耗方面,这就是最好的结果,"Xilinx公司硅营销总监Manuel Uhm说。"我们多年前就开创了chiplets,比如将高带宽存储器耦合到FPGA裸片上,或者将多个FPGA裸片耦合在一起。所有这些选择对我们来说都在桌面上,但我们绝对没有摆脱将SerDes集成到裸片上的做法。
小芯片的情况
一些公司需要找到额外的方法来保持竞争力。"高性能计算(HPC)领域的人们继续推动着更高的性能,"Cadence的Wu说。"他们过去一直依赖工艺缩水,但如今人们真的很辛苦,不得不更有创意地去追求更高的性能。晶圆厂每年都会推出新的工艺,为了跟上最新的工艺,他们必须更快地重申自己的设计。SerDes是混合信号的。对于数字设计,你只需通过重新合成,就可以把同样的设计从7nm移到5nm。如果我们需要移植一个SerDes混合信号设计,那么这是一个更长的过程。一个关键的动机是,通过使用芯片组方法,将SerDes设计周期与核心设计周期解耦。"
也可以有其他动机。"在移动领域,更重要的问题是空间,"Shukla说。"芯片方法可以让他们垂直堆叠,这样他们就可以在可预见的未来继续集成更多的功能。对于已经有中间件的设计来说,在电源分配是一个问题的情况下,它提供了成本优势。因此,SerDes的采用者都可以通过这类方法获得一些好处,你可以将裸片隔离开来。"
即使采用新的SerDes架构,扩展速度也在放缓。"它们在面积或功率上的扩展已经不多,"Galloway说。"从一个节点到另一个节点的迁移对传统的32Gbps及以下的SerDes没有帮助。对于一些基于DSP的高级SerDes来说,扩展在一定程度上是有帮助的,但它的扩展速度肯定不如数字逻辑的扩展速度。"
成本是许多设计的重要因素。"根据我们的经验,16/12nm是一种非常适合模拟设计的工艺,"Mixel的Ashraf说。"与28nm相比,它的Ft/Fmax更高,比5nm有更多的净空。我们还考虑到从16/12nm到7/6/5nm增加了设计的复杂性、工作量和工具成本。当16nm的速度不足以达到目标数据率时,就需要先进的节点。另外,我们可以看到更多的人采用芯片小片。Chiplets可以成为一种很好的方式,使模拟和SerDes块使用最合适、最便宜的工艺技术,同时让数字块使用更先进的节点。一旦互连标准化难题得到解决,我们预计芯片小块将被广泛采用。"
设计工作可能是成本的重要贡献者。"从扩展的角度来看,数字扩展从180nm下降到比如5nm,大于1000倍,"Curtis说。"从模拟缩放的角度来看,更多的是10倍的数量。与数字相比,模拟也有点难以定性。我不是说你不能表征它。只是更难,而且有更多的变量。这就是为什么要在PVT角分析上花费更多时间的原因。"
打破依赖性
将一个设计分割成多个部分从来都不是问题。"考虑英特尔和他们的北桥/南桥分区,"Shukla说。"他们有两个不同的芯片,可以按照各自的节奏进步。现在,同样的逻辑得到了扩展,很多SerDes都去了'南桥'。现在叫做外围控制器中枢(PCH)。所以SerDes部分被推到了另一个芯片里。而现在有一个单独的专用芯片来处理SerDes,你可能想用更便宜的工艺。"
Xilinx也曾使用过这种方法,有时会在初始原型和生产之间切换。"这归根结底是围绕着最前沿的技术是否足够成熟,是否能满足最高速率的要求,以及在这些高速率下是否有足够的利润率来获得成功的担忧,"Gilpatric说。"当我们最初以测试芯片的形式展示我们的Versal器件时,它是以16纳米的形式。我们用16纳米制造,因为那是目前主线产品所处的工艺。随着7nm开始上线,我们就把那个测试芯片移到了这里。有一些变化需要做,但我们能够有效地拨动它,不管是那种工艺,在这两种工艺之间都能看到非常相似的性能数据。"
但有两个模具又产生了一个新的问题。它们如何通信?有两种选择--使用并行接口或使用SerDes。"现在又开始向更类似于并行的接口转变,但这个接口并不是20世纪90年代末或2000年代初的并行接口,"Galloway说。"它不是典型的带数据的时钟。今天的并行接口是一大堆非常简单的SerDes。通常有数百个引脚或数千个引脚可用,而不是一对或少数几对。所以肯定会向并行转变,但这是一大堆使用非常简单的SerDes的并行。"
然而,它们必须在最新的进程节点上运行。"SerDes必须跟上核心裸片的工艺,"Wu说。"如果核心裸片是5nm,而I/O裸片是16nm,你需要一个5nm的SerDes来实现裸片到裸片的过程。如果我们谈论的是HPC和数据中心的应用,两个裸片之间的带宽需要达到数百千兆甚至太比特,你就需要高速SerDes。因为你没有经过那些孔隙和凸点,然后是封装,所以通道中的不连续性较少,反射也较少。"
这些被称为短距离SerDes的SerDes确实有一个更简单的问题。"一个典型的片外SerDes可以补偿高达40dB的通道损耗,"Shukla说。"如果你在发射器中的电压为1伏,那么接收器将接收到10毫伏的电压,这要低两个数量级,因为当你将电压通过这个40dB通道时,输出将小100倍。接收器必须从10毫伏做这个重任,才能接收到完整的信号。一个模对模链路可能有8到10dB的通道。"
这只是问题的一部分。"如果我们正在考虑巩固和拥有一个支持芯片到芯片互连的生态系统,我们正处于这个起点,"Gilpatric说。"它总是从电气互连开始,然后在此基础上建立一个协议栈(如图3所示)。OIF已经向前发展了,我们还有XSR。这将是一种拥有串行112千兆互连的初衷,是促进这种风格的互连。这是非常非常短的距离。一旦我们开始看到这些非常、非常短的互连如何工作的电气定义,以及可以支持它们的技术,那么我们就可以开始巩固一套通用的连接。一旦许多不同的应用领域出现了这种情况,它们就可以整合成一个真正的标准。我还不知道有什么东西真正落在这个范围内,但我们正在朝着这个方向前进。"
图3:数据链路和协议的标准化工作。
结论
这其中有很多是前瞻性的思考。"模对模接口是共同设计的,今天通常由同一家公司设计,"Galloway说。"它们甚至可能是同一设计的不同实例,所以对标准化的需求较少,那里的互操作性问题较少。我们还处于早期,还没有真正的标准来解决许多客户试图做的事情。这对客户来说还好,但对IP的可用性有影响。"
一直以来,对速度的需求,无论是套餐内还是套餐外,都在增加。"明显的趋势是联合封装光学,"吴说。"我们的意图是用光学器件取代长距离的SerDes。看看有多少创业公司在研究这个问题。我不认为61Tb交换机会采用共封装光学器件进行商业生产。可能会有一些原型,但可能会是100Tb。这是三年后的事情。光纤的走线是最大的问题,以及如何做到量产。"
但业界并不准备在必要时放弃铜缆。"你是转到PAM8电气,还是转到某种光片外?在我们如何巩固到具体技术上,这是一个非常完整的行业问题。"Gilpatric说。