DeepSeek团队在2025年12月31日(北京时间2026年1月1日)于arXiv预印本平台发布了最新论文《mHC: Manifold-Constrained Hyper-Connections》,提出mHC(流形约束超连接)架构,旨在解决大模型训练中的稳定性与效率难题。该研究由创始人梁文锋领衔,核心贡献在于对超连接(HC)范式的改进,通过引入流形约束机制平衡模型性能与训练鲁棒性。
mHC的核心机制在于通过几何约束提升训练稳定性。 传统残差连接依赖恒等映射保障信号传播稳定,但HC等扩展结构因自由形态易引发梯度爆炸(如27B模型中信号放大倍数达3000)。mHC将残差映射矩阵投影到双随机矩阵流形(如Birkhoff多面体),利用Sinkhorn-Knopp算法实现能量守恒,使矩阵行列和为1,从而抑制信号指数级放大;这一约束恢复了类似恒等映射的特性,同时保持拓扑表达力。实验表明,mHC将信号放大控制在1.6以内,显著优于HC的3000,且梯度范数稳定,损失曲线平稳收敛。
在效率与可扩展性方面,mHC通过优化实现高效训练。 针对分布式训练,mHC在DBC框架(假设为DeepSeek自研或通用弹性分布式架构)上集成内核融合、重计算和通信重叠优化,当扩展率n=4时仅引入6.7%的额外训练时间开销。内存占用降低40%,GPU带宽提升22%,流水线效率使GPU利用率超过90%。在3B至27B参数规模验证中,mHC的性能增益随规模扩大而增强(如DROP任务提升从1.5%增至2.3%),且在1T token训练下无过拟合,显示良好的泛化能力。
mHC的架构设计降低了对特定硬件的依赖。 通过流形约束减少数值不稳定,mHC对计算精度和通信带宽的要求更宽松,间接降低了对英伟达GPU高带宽内存的依赖。同时,其优化策略(如内核融合和通信重叠)与TPU专用架构的数据并行和低精度计算特性更匹配,为TPU提供更优适配潜力,但论文未直接对比TPU实测性能,需进一步验证。