Wafer-scale Computing Advancements, Challenges, and Future Perspectives

Abstract

随着人工智能的计算需求不断增长,硬件计算能力的增长却未能跟上。这已经成为制约人工智能发展的重要因素。硬件计算能力的增加主要是由晶体管密度和芯片面积的增加推动的。前者会因摩尔定律和登纳德缩放的失效而受到制约,后者受到现有颠覆性的制造设备和工艺的影响,直到新的技术达到或超越旧有工艺的性能标准。

摩尔定律 (Moore’s Law): 由英特尔的联合创始人戈登·摩尔 (Gordon Moore) 在 1965年提出。该定律指出,集成电路上可容纳的晶体管数量大约每两年会增加一倍,同时,计算机的性能也会相应地提高,而单位成本保持相对不变。
登纳德缩放定律 (Dennard Scaling): 由 Robert Dennard 及其同事在 1974 年提出。该定律指出,当晶体管的尺寸缩小时,其电压和电流也会成比例地缩小,因此,尽管晶体管的数量增加,单位面积上的功耗不会增加。

先进封装 (advanced packaging) 技术越来越多地用于实现集成多个小芯片 (chiplet) 成为更大芯片,同时仍能提供芯片级密度和带宽的互连。在这一技术的支持下,芯片可以扩展到晶圆级尺寸 (超过 10,000 平方毫米),提供比普通芯片 (仅一个芯片就能实现 POPS 数量级) 更大数量级的计算能力和 die2die 的带宽密度(超过 15 GB/s/mm)

POPS: Peta (10^15) Operations Per Second

Introduction

随着近年来 transformer 模型的出现,大型模型对计算能力的需求呈现爆发式增长,在两年的时间里增长了 1000 倍。

芯片的计算能力取决于集成在其中的晶体管总数,可以表示为晶体管密度 (单位面积的晶体管数量) 与芯片面积的乘积。由于摩尔定律和登纳德缩放的放缓,提高晶体管密度的难度越来越大,并在 3nm 之后更加严峻。而芯芯片的面积通常受到光刻掩模版(reticle)尺寸的限制。光刻掩模版是指在光刻工艺中用于在硅片上刻画电路图案的模板,它定义了每次光刻步骤中能够处理的最大区域。这个区域就是光刻步进系统 (lithography stepper system) 每次能够在晶圆上成像的面积。晶圆级计算 (Wafer-scale Computing) ,即一种通过先进封装技术或芯片拼接 (field stitching) 技术,将芯片面积扩展到晶圆级别的计算范式。尽管晶圆级计算使用了新的封装或拼接技术,它仍然能够与目前的半导体制造技术兼容,无需大幅更改生产设备和流程。
晶圆级集成的优点

  1. 是显著增强了 die2die 带宽。(NVIDIA H100 互联带宽为 900 GB/s, Tesla Dojo 中每个 D1 die 边缘带宽为 2 TB/s)
  2. 具有更好的集成密度。Tesla Dojo 训练 tile 可以紧密集成 25 个常规尺寸的芯片,而 25 个 NVIDIA H100则需要为每个GPU提供完整的封装,并且占用十倍以上的总面积。
  3. 可编程性更强。与 GPU 集群相比,晶圆级芯片的芯片间和芯片内数据通信方面的开销要小得多。
    晶圆级集成的挑战
  4. 硬件规模比传统芯片大多个数量级,大幅扩展了设计空间,不能使用传统的架构设计方法。
  5. 当前的硬件执行模型的可扩展性不足。
  6. 没有明确的原则来确定如何选择适合晶圆级计算的基板技术、布线布局、以及如何解决良率问题。
  7. 没有一种全面、跨层次的系统设计方法来协调计算单元、晶圆级基板、供电系统、冷却系统以及机械部件。
  8. 目前的软件编译和执行机制无法有效地将这些模型映射到晶圆级计算资源上。

Background

B. Accelerator Cluster

  1. Data Parallel (DP): 将数据分割成多分,并将同一个模型复制到多个设备上,每个设备处理不同的分割数据。
  • 工作原理
  • 模型在所有设备上是相同的。
  • 输入数据被分成多个小批次,每个小批次分配到不同的设备上进行独立计算。
  • 每个设备在本地进行前向传播和反向传播,计算得到的梯度。
  • 各个设备计算得到的梯度会通过梯度同步机制汇总,之后统一更新模型参数。
  • 优点 :非常容易实现,能有效扩展小批次(mini-batch)的计算规模。
  • 缺点 :每个设备上运行的模型必须可以完整加载进设备的显存,因此对于非常大的模型可能不适用。
  1. Tensor Model Parallel (TMP): 将模型的某些张量(如权重矩阵)切分到不同的设备上,分散计算任务,而不是把整个模型复制到每个设备上。
  • 工作原理
    • 模型的参数(如权重矩阵)会被切分成更小的块,并分配到多个设备上。
  • 计算过程中,设备之间需要频繁通信以共享张量的部分结果,完成前向传播和反向传播。
  • 例如,神经网络中的矩阵乘法(如全连接层的计算)可以通过切分矩阵并在多个设备上并行完成。
  • 优点 :适合 非常大的模型 ,能够把单个设备不能容纳的模型参数分散到多个设备中,从而减少显存占用。
  • 缺点 :由于设备之间的频繁通信,可能带来较大的通信开销,影响训练速度。
  1. Pipeline Model Parallel (PMP): 将模型的不同层分配到不同的设备上,使得每个设备只负责一部分模型的前向和反向传播,形成流水线式的计算过程。
  • 工作原理
  • 模型被分割为多个 阶段 (如不同的层或层组),每个阶段在不同的设备上运行。
  • 输入数据也被切分为多个小批次(micro-batch),这些小批次依次进入模型的不同部分。
  • 当一个小批次完成一个阶段时,它会被传递到下一个设备的下一个阶段,形成“流水线”效应。
  • 这使得不同设备可以同时处理不同的小批次,保持计算设备的高利用率。
  • 优点 :适合 深度非常大的模型 ,通过流水线减少模型训练时的显存压力。
  • 缺点 :由于流水线的延迟,不能像数据并行那样高效处理梯度同步,可能导致等待时间增加。

C. Advanced Packaging and Chiplet

先进封装技术可以根据载体类型分为三类:基于基板(substrate-based)、硅基(silicon-based)、和重分布层(redistribution layer, RDL)的封装技术。通过先进封装集成的裸片 (直接从晶圆上切割下来的未封装的芯片) 也被称为 dielets 或 chiplets.

  1. 基板封装技术(Substrate-based Packaging Technology): 使用有机基板材料,通过蚀刻工艺完成芯片间的连线,不依赖芯片代工厂的工艺。
  • 优点
    • 成本低 :材料和生产成本较低,因为使用有机材料,不需要复杂的半导体制造工艺。
  • 缺点
    • I/O 引脚密度低 :芯片之间的引脚密度较低,影响了数据传输能力。
    • 信号传输能力受限 :由于引脚间存在串扰效应(crosstalk),会影响每个引脚的信号传输质量,限制了芯片间的带宽。
  1. 硅基封装技术(Silicon-based Packaging Technology): 在基板和芯片之间放置额外的硅层,通过硅通孔(TSV)和微凸点 (micro-bump) 实现芯片间的互连,减少引脚间的距离。
  • 优点
    • I/O 密度高 :硅层中的微凸点和更小的布线间距提高了 I/O 引脚的密度,提升了芯片间的通信速度。
    • 传输延迟和功耗低 :由于互连距离缩短,传输延迟和功耗降低。
  • 缺点
    • 成本高 :由于依赖芯片代工厂的工艺和使用硅作为材料,硅基封装的成本显著高于基板封装。
  • 改进方案
    • 硅桥技术(Silicon Bridge Technology) :在基板上集成一小片薄硅层,用于芯片间的互连,从而减少成本。
    • 硅互连结构(Si-IF, Silicon Interconnect Fabric) :移除有机基板,将芯片通过精密引脚以小间距直接连接,进一步提升互连密度。
  1. 重分布层封装技术(RDL-based Packaging Technology): 在晶圆表面沉积金属层和介电层,形成重分布层,用于布线和重新排列 I/O 端口。
  • 常见形式 :常用的形式是 扇出型封装(Fan-out Packaging) ,即将 I/O 端口重新排列在芯片周围的空余区域上,以缩短电路长度,增强信号质量。
  • 优点
    • 成本较低 :相比硅中介层封装,RDL封装的成本更低,适用于中等性能需求的应用。
  • 缺点
    • 布线资源有限 :重分布层的布线资源有限,无法实现像硅基封装那样高密度和高性能的互连。

chiplet 技术只是实现晶圆级芯片的一种方法。还有其他方法,如 Cerebras 使用的 field stitching 也可以实现。无论采用何种方法,这种将单个芯片的尺寸扩展到晶圆级以实现高计算能力和大带宽优势的计算范式都被称为晶圆级计算。

Architecture

UCLA&UIUC 的晶圆级处理器由 32x32 个 tile 组成,每个 tile 由一个计算 chiplet 和一个存储 chiplet 异构集成。计算 chiplet 包含 14 个 ARM 内核,因此处理器的核心总数为 14,336. 每个 chiplet 上的内核都可以使用晶圆级互连网络直接访问全局共享内存。
Tesla 的晶圆级芯片 Dojo training tile 由 5x5 个 D1 die 和 40 个 I/O die 组成,每个 D1 die 包含 354 个节点 (功能齐全的计算机),因此 DOJO training tile 中的节点总数为 8,850.
Cerebras CS-2 由 12×7 个 die 组成,每个 die 由 66×154 个 core 组成。Cerebras 采用了比 UCLA&UIUC 和 Tesla 更细粒度的内核,总数高达 853,104.

Microarchitecture

UCLA&UIUC 的工作采用标准的通用处理器 (ARM Cortex M3) 作为基础核心,是异构架构,由私有 SRAM、共享 SRAM 和 tile 内网络组成,这些 tile 再形成一个同构的二维 mesh 。
Cerebras CS-2 基于张量加速单元构建定制的基础核心,专注于张量加速。使用数据流触发机制来提供灵活性,例如分支跳转和稀疏计算。基础核心同构集成到二维 mesh / torus mesh 中。
Tesla Dojo 采用一个大型的、功能完备的核心,结合了用于张量加速的向量计算单元和用于灵活性的标量通用处理模块。标量模块用于处理分支跳转和稀疏计算等任务。与 Cerebras CS-2 相似,Tesla Dojo 的基础核心也同构集成到二维 mesh / torus mesh 中。
UCLA&UIUC 的工作专注于更通用的方法。Cerebras CS-2 和 Tesla Dojo 都优先考虑 AI 加速,并为张量运算的向量单元分配了大量资源。

Execution Framework

晶圆级系统执行任务时所采用的并行策略类似于 GPU 集群。晶圆级芯片可以划分为多个分区,每个分区包含多个核心,类似于 GPU 集群中的设备。在宏观层面上,任务(例如神经网络训练)可以采用数据并行 (DP) 或模型并行 (MP) 策略执行。 在微观层面上,每个节点像传统的加速器一样处理分配给它的子任务。 向量单元对分区后的张量进行并行计算,而标量单元提供灵活的支持,例如条件分支跳转和稀疏计算。
与传统加速器相比,不同之处在于:

  1. NoC 的带宽更高,die 内和 die 间带宽差距更小,扩大了并行的设计空间。
  2. 2D 互连对设计空间施加了额外的限制,在 2D mesh NoC 上进行长距离数据传输会严重浪费带宽,因此需要保持数据的局部性,

通常情况下,最好采用基于数据流的执行框架,尽可能只将数据从一个 die 传递到相邻 die.

Network on Chip (NoC)

拓扑结构是片上网络设计中首先要确定的。常用的拓扑结构包括 mesh 、torus、二叉树和蝶形树。不同拓扑结构在路由单元数量、任意两个计算单元之间的最小和最大跳数等方面有所区别。树形拓扑通常比 mesh 和 torus 拓扑具有更少的跳数,尤其是在大型网络中。mesh 和 torus 拓扑在现有晶圆级系统中更受欢迎, UCLA&UIUC 的工作、Tesla Dojo 和 Cerebras CS-2 的片上网络都采用了 mesh 或 torus 拓扑。
mesh 和 torus 拓扑的优势:

  1. 物理实现难度低:计算单元和路由单元按 mesh 排列,这使得它们更容易集成到晶圆级芯片中并进行扩展。
  2. 更高容错性:当路由器出现故障时,在 mesh 和 torus 拓扑中更容易找到备用路径,而树形拓扑则较难。

Memory

在 Cerebras CS-2、UCLA&UIUC 的研究工作,以及 Tesla Dojo 系统中,内存架构都设计为将 SRAM 与处理单元紧密集成,以优化数据访问速度和计算效率。
Cerebras CS-2 系统使用的内存完全基于 SRAM. 每个处理核心都拥有自己的私有 SRAM.
UCLA&UIUC 的工作为私有和共享 SRAM 结合。这些共享 SRAM 不是集中式的,而是分布在多个 tile 中。
Dojo 将 SRAM 集成在处理节点上。还使用 HBM 作为片外的 DRAM.

在传统的加速器集群中,通常会将大容量 DRAM 附加到每个节点上,这种方式相对常见。然而,在晶圆级芯片上集成大容量 DRAM 非常困难,主要原因是:

  1. 晶圆级芯片上每个晶片的可用面积有限,难以容纳大型 DRAM 单元。
  2. DRAM 单元和计算逻辑单元的制造工艺存在差异,因此难以在同一片晶圆上集成。

Tesla Dojo 系统在每个 tile 的边缘使用了 HBM,但 Dojo 开发者在 AI day 报告指出,HBM 与中央 die 之间的数据传输成本很高,因此需要提高数据访问的局部性。

晶圆级芯片中,集中式内存会导致核心之间的访问延迟严重不均衡,尤其是距离内存较远的核心访问速度更慢。
晶圆级芯片中的 NoC 的带宽远远高于传统加速器集群中的带宽,能够有效支持分布式内存的使用,减少集中式内存带来的瓶颈。

在 2022 年的 HotChips 会议上,Cerebras 指出传统的集中式内存由于带宽较低,往往需要通过数据重用和缓存来提高效率。而高带宽的分布式内存则可以在不依赖缓存的情况下实现数据路径的全面性能提升。

Discussion

Design space exploration for wafer-scale chips

晶圆级系统的设计空间主要由三层组成:

  1. 工作负载层: 将表面的需求(如目标应用任务和预期性能)需要转化为高级次的需求,例如:

    • 操作符类型
    • 并行化策略
    • 数据通信和重用模式
  2. 系统层: 确定微架构和整体架构,以满足需求,包括:

    • 数据流设计
    • 计算单元
    • 存储组织
  3. 网络层: 决定网络框架和实现,确保系统正常运行,包括:

    • 分层结构设计与拓扑
    • 互连接口和协议

此外,晶圆级背景还引入了许多额外变量,如芯片间互连的多种实现方式和容错机制等

设计三层中的选择相互影响,因此逐步分别确定设计可能导致两个问题:

  1. 累积效应导致小损失累积: 各部分的小损失可能累积成整个系统的巨大损失,导致全局解决方案不理想。
  2. 忽略系统瓶颈: 每一层的优化器无法准确获取其他层的信息,导致其不知道系统的真正瓶颈,可能在非关键路径上进行无效工作,导致非最佳的选择。

与传统芯片制造相比,构建晶圆级系统面临更大的良率问题挑战,因此设计人员提出了容错机制来应对这一问题。

Cerebras 提出了具有冗余核心和冗余互连链路的容错机制。冗余核心可以替换有缺陷的核心,额外的链路可以重新连接网络,恢复逻辑上的 2D mesh 结构。与 UCLA&UIUC 和 Tesla Dojo 使用经过预测试的芯片(Known-Good-Dies, KGDs)组装成晶圆级芯片不同,Cerebras 直接生产集成的晶圆级芯片,因此面临更大的良率挑战。为了低成本地应对良率问题,Cerebras 的核心设计得非常小。

UCLA&UIUC 的容错机制主要关注于芯片间互连。在晶圆上设计了两个独立的网络,一个采用 X-Y 维度有序路由,另一个采用 Y-X 维度有序路由,以确保任意两个芯片块之间的访问。

现有的容错机制仍有很大改进空间。故障可能由缺陷链路、chiplet、核心或核心内部的部分逻辑引起。

良率问题还与其他设计点相关。在现有的晶圆级系统设计中,每个核心的 NoC 路由器和计算部分被设计为高度解耦,这有助于容错机制的实现(以及分布式存储器的利用)。此外,现有的晶圆级系统设计仅在芯片上集成了低密度且昂贵的 SRAM,这是因为晶圆级集成技术尚未成熟,无法在维持良率的同时解决 DRAM 与计算逻辑之间的工艺差异。

Interconnection Interfaces and Protocols

Compile Tool Chain

Common End-to-End Compilation Flow of Large-Scale Deep Learning Acceleration

与传统的大规模深度学习加速平台类似,晶圆级计算系统也需要编译器工具链,以满足极致计算效率和易用性的用户需求。

  • 极致计算效率: 应用负载必须得到完美的优化、调度和映射,同时硬件资源要得到充分利用。
  • 易用性: 这意味着编译过程应该高度自动化、灵活且端到端,不需要过多的手动干预。

深度学习加速的编译流程包括以下步骤:

  1. 高级中间表示 (IR) 的生成: 编译器首先将输入的应用规范转换为高次的中间表示 (IR)。存在多种深度学习框架(如 TensorFlow、Pytorch、PaddlePaddle 等),编译器需要足够灵活以处理不同形式的输入。高级 IR 通常采用有向无环图 (DAG) 形式,将操作表示为节点,数据依赖表示为边。
  2. 图优化:编译器在高级 IR 上进行图优化操作,如算子融合、数据布局转换和重计算优化,来提升性能并减少计算和内存开销。
  3. 任务映射: 如果目标硬件平台是多设备加速集群或具有多个分区的单设备,编译器会进行任务映射,即将任务划分为多个子任务,并调度到不同的设备或分区上。通常使用并行和流水线策略以提高硬件的利用率和执行性能。编译器通常会构建高层次的 cost model,以帮助决定采用哪种映射方案。
  4. 低级中间表示 (IR) 的生成: 在完成任务映射后,生成低级 IR,它比高级 IR 提供更精细的表示,反映硬件特性,并进行硬件相关的优化。
  5. 算子符优化: 在低级 IR 基础上,进行操作符优化,例如仿射变换和内核库优化,以调整每个操作的计算和内存访问。
  6. 生成机器码: 在完成所有优化后,编译器从优化后的 IR 中生成驱动硬件的机器码。

整个编译流程可以分为三个部分:前端、优化器(中端)和后端。在本节中,我们主要关注优化器。一般来说,图优化属于高层优化,一次考虑多个运算符,而算子优化属于低层优化,关注如何更高效地执行单个运算符。

Typical Compiler Tools for Large-Scale Deep Learning Acceleration

2022年,Zheng 等人提出了一个名为 Alpa 的编译器,它能够通过层次化优化算子内和算子间的并行性,自动生成模型映射计划。

  • 核心思想: 不同的并行方案对通信带宽的需求各不相同,而典型的计算集群中,距离较近的核心可以进行高带宽通信,而距离较远的核心带宽有限。基于这一不对称特性,Alpa 将算子内并行映射到具有高带宽通信的核心,而将算子间并行分配给带宽有限的核心。
  • 层次化架构: Alpa 采用层次化架构来表达每个并行类别中的计划。给定计算图和硬件配置后,算子间编译过程将计算图划分为多个阶段,并将集群划分为若干设备网格。
  • 算子间过程: 算子间过程使用动态规划 (DP) 算法,将阶段分配给相应的设备网格,并在每个阶段-网格对上激活算子内过程,以获取该分配的执行成本。
  • 算子内过程: 算子内过程通过整数线性规划算法,优化阶段在分配设备网格上的执行效率,最小化相应的执行成本,并将成本报告返回给算子间过程。
  • 整体优化: 通过对每个阶段-网格对多次调用算子内过程,算子间过程利用动态规划算法最小化算子间并行性的执行延迟,同时获取阶段和网格的最优划分方案。

ISPD 2020 比赛中提出了一个独特的挑战,将神经网络的工作负载分配到 Cerebras CS-1 晶圆级引擎 (WSE) 上。WSE 的一个重要特点是其有足够大的计算能力,可以同时运行神经网络的每一层,因此如何分配工作负载以大幅提高硬件效率是一个需要解决的关键问题。

WSE 的编译流程如下:

  1. 神经网络模型转化为图表示: 输入的神经网络模型通常由机器学习框架表示,这些模型会被转换为图表示,并应用预定义的内核库中的一组内核。具体来说,神经网络中的每个模块里的层都会映射到许多内核,每个内核执行一个特定的计算任务。
  2. 内核的放置与路由: 使用映射算法将神经网络的内核放置到计算架构上,并为其设计路由,需要满足特定的目标和约束条件。具体要求如下:
    • 所有内核必须适应计算网格的面积(633 × 633 tiles)。
    • 内核之间不能重叠。
    • 任何内核的内存不能超过单个 tile 的内存限制。

在保证放置运行时间达标的前提下,解决方案的质量通过以下目标的加权总和进行评估:

  • 所有内核中的最大执行时间 (MET)。
  • 所有连接内核的 L1 距离综合。
  • 所有连接内核的总适配器开销。

    在 WSE 上编译的模型以流水线方式执行,吞吐量最慢的内核将限制整个系统的性能。L1 距离提供了路由成本的简化评估。适配器开销反映了在实际系统中统一内核之间 I/O 协议所需的成本。

一个内核代表一个参数化的程序,用于执行特定的张量操作。内核由两部分组成

  • 形式参数 (*formal arguments)*:这些参数由输入神经网络的结构决定,在编译过程中保持不变。
  • 执行参数 (execution arguments):这些参数是可配置的,是由映射算法优化的变量。

卷积内核包含

  • 8 个形式参数:

    • (H, W):输入图像的二维大小
    • (R, S):卷积核的二维大小
    • (C, K):输入特征和输出特征的数量
    • (T, U):卷积操作的水平和垂直步幅(striding)
  • 4 个执行参数 (h, w, c, k): 表示计算展开(unrolling),即可以并行执行的操作。

The Key Differences of Wafer-Scale Computing Compilers from Traditional Ones

晶圆级计算依赖于软硬件协同设计,因此其平台特性决定了晶圆级计算编译器与传统加速器编译器的不同之处。

  1. 物理层面
  • 高带宽:晶圆级芯片通过先进封装实现紧密集成,有着传统加速器集群更大的 die2die 带宽。打破了传统的内存瓶颈,使得搜索空间更大。
  • 网络限制:为了提高芯片间带宽和集成密度,晶圆级芯片将网络拓扑限制在 2D 空间内(mesh/torus)。因此,在任务映射中必须设置额外的约束条件,提高数据局部性以避免长距离数据传输。
  1. 架构层面
  • 传统的大规模深度学习加速平台通常存在明确的控制和通信边界,扩展它们时会受到频繁的主机间和主机与设备间通信的限制,并且由于设备内外带宽差异大,导致任务映射过于粗糙,硬件资源得不到充分利用。
  • 晶圆级芯片采用无缝架构,基本消除了芯片内外的带宽差异,因此支持统一的细粒度映射,实现更好的硬件利用率和整体性能,但代价是编译过程的复杂性显著增加。
  1. 系统层面
    对于研究人员提出的有针对性的硬件设计策略,编译器也必须了解硬件细节并与之配合,例如
  • 冗余的处理单元和数据路径是为了解决良率问题而设计的,编译器应该知道何时以及在哪里调用这些冗余资源。
  • 晶圆级芯片比传统加速器面临更严重的热问题,编译器可以在原始负载均衡过程中集成热点感知策略,以配合硬件的散热设计。

Integration

如第二节所述,chiplet 技术通过三种主要的先进封装类型将多个小型晶片整合成大型计算系统:基于基板、基于硅片和基于重新分布层 (RDL) 的封装技术。为了实现晶圆级芯片的集成,研究人员对这些原有的封装技术进行了优化,甚至采取了更为激进的方法,直接生产集成的晶圆级芯片。

Silicon-Based Integration

在大规模集成设备中,提升集成密度和性能通常通过增加输入/输出和电源/地终端的数量实现,但这样使得布线设计规则复杂和引脚间距缩小。由于热膨胀系数的差异会导致导致芯片与有机基板之间连接的可靠性下降。
硅中介层封装技术可以解决上述问题。使用额外的硅中介层作为芯片与基板之间的互连桥梁。通过 硅通孔 (TSV)微凸点 实现高密度连接,能提供更高的输入/输出密度、更低的传输延迟、和更低的功耗。
然而,硅中介层仍需连接到有机基板,这增加了封装层次,限制了尺寸,并且提高了整体封装成本。
硅互连结构 (Si-IF) 专门为晶圆级集成设计,无需有机基板,降低了封装成本。提供了高密度的 chiplet 互连,具备以下优势:

  • 互连密度:4 × 10^6 cm−2
  • 低电阻率:0.8–0.9 Ω-um2
  • 紧密的芯粒间距:≤ 100 um
  • 高粘附强度:150 MPa
  • 更均匀的散热

Redistribution Layer (RDL)-Based Integration

除了硅基集成,另一种关键的芯粒间互连物理实现技术是基于 重分布层 (RDL) 的扇出型封装。这种技术消除了传统的线键合或晶圆凸点连接以及引线框架或封装基板的需求,改用 RDL 承载相应的金属布线模式。这里的扇出意味着芯片的 IO 端口被重新排列在芯片外的松散区域。其优势在于

  • 减少电路长度:由于 IO 端口不再局限于芯片范围,平均电路长度减少,从而提高了信号质量。
  • 提升集成密度:芯片面积可以减小,不需要为放置 IO 端口预留空间,从而提高集成密度。

Wirebonding (线键合): 将芯片内部的电气信号与外部电路(如封装基板或引线框架)连接。具体过程为通过细金线或铝线将芯片的引脚(或焊盘)连接到封装基板上的金属接触点上。
Wafer Bumping (晶圆凸点): 在芯片表面生成微小的金属凸点(通常是锡、银等合金),这些凸点用来直接将芯片焊接到封装基板或其他芯片上,形成芯片之间的电气和物理连接。
Leadframe (引线框架): 用于在芯片封装中将芯片的电气信号通过引脚传输到外部电路。引线框架通常用于较简单、低成本的封装类型(如 DIP、QFP 等)。
Package Substrate (封装基板): 将芯片封装到外部电路中的一个承载平台,为芯片提供机械支撑,并通过内部金属层实现芯片与外部电路之间的电气连接。封装基板通常用于多层封装,广泛应用于 BGA(球栅阵列封装)和 Flip-Chip 封装中。

台积电提出了业界首个基于 InFO 技术的晶圆级系统集成封装,称为 InFO SoW。电源和连接器模块通过焊接连接到 InFO 晶圆。在焊接后进行热模块组装,以完成整个封装。其优势在于

  • 无需 PCB 基板:InFO SoW 直接作为载体,不需要额外的 PCB 基板。
  • 工艺均匀性:在超大封装上表现出良好的工艺均匀性。
  • 低功耗:InFO RDL 的较低表面粗糙度可节省约 15% 的互连功耗(长度为 30mm 时)。
  • 散热能力:2×5 阵列假负载可以散热 7000W,同时将温度控制在 90°C 以下。
  • 结构稳健性:与传统的 Flip-Chip 封装相比,InFO SoW 在结构稳健性方面的风险较低。

Field Stitching-Based Integration

与采用先进封装技术整合常规大小芯片的方式不同,Cerebras 采用了一种更为激进的方法:使用场拼接技术连接掩模,以直接生产集成的晶圆级芯片,其面积高达 46,255 mm²。首先,使用面积为 525 mm² 的标准掩模遍布晶圆进行曝光,然后通过偏移掩模将这些标准掩模之间的布线拼接在一起。这种晶圆级集成提供了高效的大容量分布式 SRAM,并通过超短的芯片间互连实现整个晶圆内一致的带宽。

System


Wafer-scale Computing Advancements, Challenges, and Future Perspectives
https://darkenstar.github.io/2024/09/20/Wafer-scale Computing/
Author
ANNIHILATE_RAY
Posted on
September 20, 2024
Licensed under