火碱
修改于2025-05-17 19:17来自雪球 · 上海
DeepSeek-V3再发论文,梁文锋署名,论文强调 CPO和硅光子技术是突破AI硬件带宽和能效瓶颈的关键方向
来自火碱的雪球专栏
在论文中,关于封装内光互联(Co-Packaged Optics, CPO)和集成硅光子(Silicon Photonics)的内容主要集中在 Section 6.3(Toward Intelligent Networks for AI)和 Section 6.5(In-Network Computation and Compression)(原论文链接网页链接)
论文强调,封装内光互联和硅光子技术是突破当前AI硬件带宽和能效瓶颈的关键方向,需通过硬件-软件-网络协同设计实现以下目标:
带宽扩展:支持EB级AI模型训练所需的Tbps级互连。
能效提升:将通信能耗占比从当前的30%以上降至10%以内。
大规模扩展性:实现百万级GPU集群的低延迟全局连接。
这些技术预计在下一代AI集群(如GB200 NVL72架构)和超大规模模型中率先落地。
1. 封装内光互联(Co-Packaged Optics)
背景与动机
带宽与能效挑战:随着AI模型规模(如MoE架构中的大规模专家并行)对网络带宽需求的激增,传统电互连面临带宽密度和功耗瓶颈。例如,MoE模型的专家并行(EP)通信需要高、低延迟的All-to-All操作,而电互连的带宽(如400Gbps InfiniBand)和能效难以满足未来需求。
技术优势: 高带宽密度:光互连通过波分复用(WDM)可在单光纤中实现数Tbps带宽,显著优于电互连。低功耗:光信号传输的功耗远低于电信号,尤其适合大规模集群的能耗优化。短距离优势:CPO将光模块与计算芯片(如GPU/ASIC)封装在同一基板上,缩短了电信号传输距离,减少信号衰减和延迟。
论文中的具体建议
集成光引擎:未来硬件应在芯片封装内集成光互连模块(如硅光调制器、探测器),直接连接芯片与光纤,避免传统可插拔光模块的PCB走线损耗。
支持AI负载的定制化:光互连需针对AI通信模式(如All-to-All、Reduce-Scatter)优化,例如通过动态波长分配适应突发流量。
降低成本:通过硅光子技术的大规模制造降低成本,推动CPO在AI集群中的普及。
2. 集成硅光子(Silicon Photonics)
技术定位
硅基光电子集成:利用CMOS兼容工艺在硅芯片上集成激光器、调制器、波导和探测器,实现光互连的小型化和低成本化。
与CPO的协同:硅光子技术是CPO实现的关键,使光模块能够与计算芯片共同封装。
论文中的应用场景
Scale-Out网络扩展:
在大规模集群(如万卡级)中,硅光子支持高密度光互连,突破电互连的端口密度限制(如InfiniBand交换机仅支持64端口)。
通过光交换(Optical Circuit Switching, OCS)实现低延迟、高的全局连接,适应MoE模型的动态专家路由需求。
能耗优化:
硅光子器件的低功耗特性(如亚皮焦/比特级能效)可缓解AI训练/推理的能耗问题。论文提到,未来光互连的能效需比当前电互连提升10倍以上。
与网络智能结合:
硅光子支持自适应路由和波长重配置,例如根据流量模式动态调整光路径,避免网络拥塞(如RoCE ECMP的局限性)。
3. 技术挑战与未来方向
论文在 Section 6.6(Memory-Centric Innovations)和 Section 6.3 中还提到以下关键挑战和建议:
技术成熟度:
当前硅光子器件的插损(Insertion Loss)和耦合效率仍需优化,尤其是与封装工艺的兼容性。
CPO的散热设计需创新,以应对高密度封装的热管理问题。
协议与标准化:
光互连需要新的网络协议(如光层传输协议),支持AI负载的流量特征(短消息、高突发性)。
推动UEC(Ultra Ethernet Consortium)和UALink等联盟对光互连的支持,制定开放标准。
与内存架构协同:
结合3D堆叠内存(如HBM4)和光互连,实现内存-计算-网络的全光路径优化,突破“内存墙”限制。
4. 与其他技术的协同
智能网络(Intelligent Networks):光互连需支持自适应路由和拥塞控制,例如通过硅光子的可编程性实现硬件级流量调度。
内存语义通信:光互连的低延迟特性(亚微秒级)可加速内存语义操作(如RDMA),减少GPU-CPU同步开销。
$罗博特科(SZ300757)$ $仕佳光子(SH688313)$ $太辰光(SZ300570)$
火碱的专栏