
2022年,ChatGPT的推出引发了人工智能(AI)和高性能计算(HPC)应用的指数级增长,使人工智能对日常生活越来越重要。大型人工智能模型擅长处理复杂任务,但它们需要大型训练数据集和大型计算系统。......
2022年,ChatGPT的推出引发了人工智能(AI)和高性能计算(HPC)应用的指数级增长,使人工智能对日常生活越来越重要。大型人工智能模型擅长处理复杂任务,但它们需要大型训练数据集和大型计算系统。这些大型计算工作负载导致芯片尺寸更大、功率密度更高,使得设计节能架构变得更加困难。然而,即使传统的扩展速度减慢,对计算的需求仍在继续增长。
因此,芯片的异构集成(HI)对于实现高系统吞吐量(每秒万亿次操作或TOPS)和能源效率(TOPS/W)以满足不断增长的计算需求至关重要。通过将片上系统(SoC)拆分为多个Chiplet并将它们集成到单个封装中,可以显著提高系统的设计灵活性、功能性、带宽、吞吐量和延迟。这可以通过横向、垂直甚至双向拉近Chiplet来实现,从而允许在单个封装中集成更多内存或逻辑。此外,减小die的尺寸并在封装前执行已知良好芯片(KGD:knowngooddie)测试可以实现对芯片性能的更高水平的控制,从而提高良率并降低总体成本。
HI是实现专用于训练大型生成式AI模型的高性能系统的潜在解决方案。通过将高带宽内存(HBM)、中央处理器(CPU)和图形处理单元(GPU)等芯片集成到一个封装中,吞吐量、延迟和能效得到显著提高,并克服了传统2D单片芯片设计的局限性。
最后,我们还总结了玻璃芯封装的最新进展,并评估了它们的优点和局限性。
异构集成技术的当前趋势将SoC划分为Chiplet的主要动机是提高系统功能并降低制造成本。为了提高这些基于Chiplet的系统的性能,多芯片HI架构出现了多项创新。我们根据IEEE电子封装协会(EPS)异构集成路线图的定义,将multi-die架构分为2D、2.5D或3D,并在图1中提供概述。表1总结了当前的异构集成技术。
A.多芯片模块架构
多芯片模块(MCM:Multi-chip-Modules)是最早的多芯片2D架构之一,其中芯片横向放置在有机基板上,以减少导线长度并增加封装带宽,从而提高系统性能和设计灵活性。这是最简单的集成技术之一,但是,由于使用传统的有机基板和基于粗焊料的键合技术,MCM的互连密度可能会受到限制。这些基于焊料的互连(例如C4凸块)很难缩小到更细的间距,因为相邻的互连在键合过程中会短路,从而限制了系统性能。对于大型AI系统,需要低延迟和高效的内存访问,但是,由于互连有限,将MCM扩展到更大的系统很困难,这可能会成为瓶颈。
B.中介层架构
这些挑战导致了2.5D架构的出现,这种架构利用玻璃、硅中介层或局部硅桥等基板来提高横向互连密度。细间距微凸块和硅通孔(TSV)技术可以提高堆叠在玻璃或硅中介层上的芯片的互连密度。
然而,随着计算需求的增长,将中介层扩展到大规模AI系统的成本可能很高。
因此,基于桥的架构(例如英特尔的嵌入式多芯片互连桥(EMIB))利用嵌入在封装基板中的局部硅和多个布线层来实现更细的布线间距。芯片间信号位于局部硅桥中,电源/接地互连和其他信号位于有机封装中,从而消除了对TSV的需求并简化了组装过程。
与EMIB类似,高架扇出桥(EFB:elevatedfanoutbridge)使用局部硅桥来增加芯片间互连密度,桥位于封装基板上方。这种方法可以进一步降低组装成本和复杂性。与3DHI相比,基于桥的技术具有更高的设计功能性、更低的设计复杂性和更简单的热管理,因此有望用于大规模AI系统,然而,传统的互连技术(如微凸块)可能会限制其系统性能。这导致了新的键合技术(如铜对铜键合)成为克服这一限制的潜在解决方案。
C.晶圆级封装
晶圆级封装(WLP:Wafer-LevelPackaging)技术对于基于先进芯片的架构具有重要意义,因为它们可以实现高互连密度、减少互连延迟和增加带宽。通过扇出芯片I/O信号,而不是使用传统互连(例如引线键合或C4凸块),可以实现高集成密度,从而使WLP适用于高性能系统。在传统的WLP中,KGD被封装在环氧模塑料(EMC:epoxymoldcompound)中以形成重构晶圆。
然而,由于EMC和芯片之间的热膨胀系数(CTE)不匹配,EMC可能导致制造问题,从而导致翘曲和芯片移位/错位,并且材料的低热导率使高功率系统的功率耗散变得困难。因此,已经提出了替代材料来嵌入/封装芯片。
架构
3DHI技术是一种很有前途的方法,可以满足AI系统的计算需求。使用TSV和细间距互连技术(例如微凸块或混合键合),3D堆叠可以实现高带宽和低延迟系统。许多半导体公司都开发了自己的3D架构,包括英特尔的Foveros、三星的X-Cube和AMD的3DV-Cache产品,该产品使用台积电的集成芯片系统(SoIC)技术。SoIC技术将SoC划分为多个芯片,这些芯片可以重新集成到各种3D配置中。这允许灵活地集成不同技术节点、
材料和芯片尺寸的无源和有源芯片(见图2),以支持超过20Tbps的内存带宽。
与传统的3DIC微凸块相比,混合键合的键合密度大幅提高了16倍,并降低了IR降等电寄生效应,降低了每位的能耗。除了更精细的互连间距外,SoIC技术还具有更高的金属布线密度和更薄的键合层,可以提高热性能。然而,该技术面临着与传统3DIC类似的挑战。由于严格的表面清洁度和化学机械抛光(CMP)要求,缩小混合键合间距变得越来越困难。
值得注意的是,3D系统带宽由堆栈总数和底部芯片的大小决定。虽然增加3D堆栈中的芯片数量对于增加内存带宽或计算能力是可取的,但组装复杂性和成本可能会显著增加。此外,散热和机械稳定性变得更加困难。液体冷却已被提议作为一种有助于散热的潜在解决方案,然而,这一领域超出了本文的讨论范围。
最近,使用WLP技术的其他3D架构也出现了。M.-等人提出了一种晶圆级芯片重构技术,称为三维集成芯片封装(3D-ICE),其中多个芯片封装在低温SiO2中以形成重构SiO2层,如图3所示。然后可以对该SiO2层进行后处理以实现高密度3DHI。同样,英特尔提出了准单片芯片(QMC:quasi-monolithicchip)作为一种新的3DHI架构,其中芯片也封装在超厚二氧化硅层中。SiO作为封装材料具有多种优势。由于其低损耗特性,它可以促进高速信号传输,并且由于不需要固化,因此基本上不存在芯片移位或错位,并且它与现有的CMOS制造工艺兼容,从而模糊了封装处理和设备处理之间的界限。
人工智能的异构集成趋势产品的当前格局
人工智能的快速发展推动了HI架构的多种商业部署,这些架构专门用于加速最大的人工智能工作负载。在本节中,我们调查了最近报告的行业产品,并在表2中总结了它们的规格。
2024年,Cerebras推出了WSE-3,这是一款晶圆级人工智能加速器,速度是WSE-2的两倍,旨在训练比GPT-4和Claude大10倍的模型。有趣的是,Cerebras使用传统的设备缩放和晶圆级集成来超越摩尔定律。借助台积电的5纳米技术,在单个晶圆上制造了四万亿个晶体管,芯片尺寸约为GPU的57倍。然而,计算和内存组件是分离的,以实现内存容量扩展,因此单个WSE-3系统能够比由10,000个GPU组成的集群更高效地存储和训练具有24万亿个参数的模型。
相比Cerebras,其他半导体公司正在使用先进的封装技术来设计大规模AI系统。Nvidia宣布推出GB200GraceBlackwell芯片,该芯片由两个BlackwellGPU和一个GraceCPU组成。该芯片专为具有超过10万亿个参数和384GB片外内存的大型语言模型而设计,设备总功率为2700W。为实现这一目标,Nvidia使用了台积电的晶圆上芯片基板(CoWoS)-L封装技术。该封装技术使用局部硅互连(LSI)芯片和重构中介层来实现大集成面积、带宽和低延迟的高性能系统。
AMD在其MI300X封装中采用了小芯片方法,并结合了中介层技术和3D堆叠,以实现高性能和内存带宽。MI300X由多个GPU小芯片、I/O芯片和192GB高带宽内存(HBM)组成,总设备功率为750W。CPU复合芯片(CCD)和加速器复合芯片(XCD)以3D方式堆叠在I/O芯片(IOD)上,以实现低信号延迟。最后,使用大型硅中介层集成3D堆栈和高带宽内存(HBM)芯片,以实现高性能系统。
英特尔的Gaudi-3加速器产品利用其嵌入式桥接芯片技术将两个英特尔计算芯片与128GBHBM集成在一起,以增强大规模AI系统。与其他基于桥接的中介层技术类似,EMIB允许英特尔提高设计功能并降低组装成本。虽然Gaudi-3加速器不如Nvidia的H100强大,但它是一款经济高效的高性能系统。
最后,特斯拉凭借Dojo进入了AI市场,这是一款针对大型神经网络训练进行了优化的芯片。
Dojo的总设备功率为400W,比竞争对手低得多,专为驾驶情况的实时数据处理而设计。特斯拉正在使用台积电的集成扇出晶圆系统(InFo-SoW)技术实现高密度、低延迟系统。
总之,随着人工智能模型的规模和复杂性不断增长,技术已经转向HI和新兴HI技术。
B.芯片间接口和通信协议
随着单个系统中芯片数量的增加,芯片间(D2D)接口对于各个组件之间的数据移动变得越来越重要。AMD的InfinityFabric和英特尔的高级接口总线(AIB)是D2D接口,用于其AI加速器产品中,以最大限度地减少延迟并最大化带宽。
然而,随着系统变得越来越多样化,芯片由不同的供应商提供,通用芯片互连Express(UCIe)协议已开始成为通用行业标准。标准D2D协议对于设计灵活性和可扩展性至关重要,尤其是对于大规模AI和HPC系统以及网络系统。图4显示了异构计算的不同标准协议的摘要。
玻璃封装A.玻璃芯基板封装的出现
AI应用通常需要更大的中介层和非常高密度的互连以实现高带宽。这些严格的要求加上可靠性和性能,要求开发和实施先进的封装技术来构建大型封装。
B.玻璃芯封装的优势
基于玻璃的中介层通过提高信号完整性、支持高密度互连、集成光通信、优化热管理以及确保可靠性和可扩展性,增强了用于AI应用的半导体封装的带宽能力。这些特性使玻璃中介层成为实现高性能计算和实现高级AI功能的重要组件。玻璃表面光滑/表面粗糙度极低,可以实现细线和空间的缩放,这对于实现非常高密度的互连至关重要。
此外,玻璃由Si-O键组成的表面结构有助于粘附各种聚合物材料,用作介电树脂和感光树脂。将玻璃的低介电常数与多层中介层结构的低介电常数累积层相结合,可以显着降低系统的延迟。这一特性在最小化信号传播延迟和减少相邻互连之间的串扰方面起着至关重要的作用,尤其有利于高速电子设备和共封装光学器件。
此外,玻璃基板降低了互连之间的电容,从而实现了更快的信号传输并提高了整体系统性能。在数据中心、电信和高性能计算等速度至关重要的关键应用中,采用玻璃基板可以大大提高系统效率并增加数据吞吐量。
此外,玻璃的低介电常数还支持卓越的阻抗控制,这对于保持整个电路的信号完整性至关重要。这一特性在射频应用中尤其有利,因为精确的阻抗匹配对于优化功率传输和最大限度地减少信号损失至关重要。玻璃基板确保整个基板表面的电气特性一致,从而能够设计和生产具有更高可靠性和性能的高频电路。
此外,与有机封装相比,玻璃具有出色的尺寸稳定性,有助于提高层间精度,这是在多层玻璃中介层中实现非常高的互连密度的关键。这不仅有助于减小焊盘尺寸,还有助于将细线和走线缩小到1μm,从而增加多层中介层中每个再分布层中的IO数量。此外,玻璃基板的热膨胀系数(CTE)在3-12ppm/◦C范围内。这可以减轻玻璃与硅(CTE=3ppm/◦C)芯片以及玻璃与印刷线路板(CTE=17ppm/◦C)之间的CTE不匹配问题。
能够构造玻璃是封装和中介层应用玻璃芯基板的另一个优势。
玻璃构造可以是以下任何一种类型:(a)玻璃通孔(TGV:ThroughGlassVias),(b)盲玻璃腔(BGC:BlindGlassCavities),或(c)玻璃腔(TGC:ThroughGlassCavities)。TGV可以通过激光诱导深蚀刻(LIDE:LaserInducedDeepEtching)形成,首先对玻璃进行局部激光修改,然后进行湿化学蚀刻工艺,以最大限度地减少制造过程中微裂纹的积累。BGC和TGC可以通过激光加工轻松形成,必要时可以进行湿蚀刻工艺。BGC和TGC对于将芯片嵌入BGC和TGC非常重要,这被称为玻璃面板嵌入(GPE)。制造所需尺寸的腔体,并使用精度为几微米的自动芯片拾取和放置工具将芯片放入这些腔体中。GPE工艺非常适合异构集成,其中不同尺寸和功能的芯片(包括电容器和磁电感器等无源元件)内置在封装中。在这种方法中,电容器和电感器保持在靠近电力输送/IVR等应用所需的位置。图6显示了GPE中使用的典型工艺流程。
利用先进的GPE工艺,可以轻松地将热解决方案集成到封装中以消除热量。例如,对于带有TGC的GPE,可以将隔热材料和散热器附着到玻璃基板的背面。对于BGC,可以在减薄/研磨基板后加入散热器来消除热量。GPE架构可以轻松地从2.5D架构调整为包括3D集成,其中可以使用以下方法之一:
(b)无源芯片可以嵌入结构化玻璃中,并且可以通过倒装芯片工艺在玻璃封装结构上组装多个芯片;
最后,除了各种优越的性能外,玻璃对封装中基板格式的限制更少。虽然硅只能在圆形晶圆中加工,但玻璃可以实现面板工艺,从而降低成本。例如,300毫米晶圆可容纳2,500个6毫米x6毫米尺寸的封装,而600毫米x600毫米面板可容纳12,000个封装。
C.目前玻璃的限制
玻璃基板固有的易碎性带来了重大挑战,尤其是当行业采用更薄的基板来满足对更高设备集成度和性能的需求时。薄玻璃板有时薄至100µm或更薄,在处理和制造过程中特别容易损坏。这种在压力下开裂或破碎的风险凸显了专门设备和定制工艺的必要性,这些工艺旨在安全地处理这种材料。
除了处理困难之外,玻璃还表现出相对较低的散热性。尽管玻璃比有机层压板导热性更好,但与硅相比,玻璃的导热性较差。为了克服与玻璃导热性低相关的限制,已经证明了将铜结构(例如通孔封装通孔(TPV)、铜块和重分布层(RDL)中的铜迹线)结合到玻璃基板中的方法[107]。此外,用于嵌入式和基于基板的封装的下一代热界面材料(TIM)也正在积极开发中,重点是降低热界面电阻,以实现芯片的最大热传递。
致谢:
本文作者包括来自佐治亚理工学院的MADISONMANLEY,ASHITAVICTOR,HYUNGGYUPARK,ANKITKAUL,MOHANALINGAMKATHAPERUMAL,,特此感谢。