• 最近访问:
发表于 2026-01-03 13:53:52 东方财富Android版 发布于 广东
姐读985应用数学,毕业也是做计算机程序编程的,一看就明白。
发表于 2026-01-03 12:02:07 发布于 浙江

$天普股份(SH605255)$  

DeepSeek团队在2025年12月31日(北京时间2026年1月1日)于arXiv预印本平台发布了最新论文《mHC: Manifold-Constrained Hyper-Connections》,提出mHC(流形约束超连接)架构,旨在解决大模型训练中的稳定性与效率难题。该研究由创始人梁文锋领衔,核心贡献在于对超连接(HC)范式的改进,通过引入流形约束机制平衡模型性能与训练鲁棒性。


mHC的核心机制在于通过几何约束提升训练稳定性。 传统残差连接依赖恒等映射保障信号传播稳定,但HC等扩展结构因自由形态易引发梯度爆炸(如27B模型中信号放大倍数达3000)。mHC将残差映射矩阵投影到双随机矩阵流形(如Birkhoff多面体),利用Sinkhorn-Knopp算法实现能量守恒,使矩阵行列和为1,从而抑制信号指数级放大;这一约束恢复了类似恒等映射的特性,同时保持拓扑表达力。实验表明,mHC将信号放大控制在1.6以内,显著优于HC的3000,且梯度范数稳定,损失曲线平稳收敛。


在效率与可扩展性方面,mHC通过优化实现高效训练。 针对分布式训练,mHC在DBC框架(假设为DeepSeek自研或通用弹性分布式架构)上集成内核融合、重计算和通信重叠优化,当扩展率n=4时仅引入6.7%的额外训练时间开销。内存占用降低40%,GPU带宽提升22%,流水线效率使GPU利用率超过90%。在3B至27B参数规模验证中,mHC的性能增益随规模扩大而增强(如DROP任务提升从1.5%增至2.3%),且在1T token训练下无过拟合,显示良好的泛化能力。


mHC的架构设计降低了对特定硬件的依赖。 通过流形约束减少数值不稳定,mHC对计算精度和通信带宽的要求更宽松,间接降低了对英伟达GPU高带宽内存的依赖。同时,其优化策略(如内核融合和通信重叠)与TPU专用架构的数据并行和低精度计算特性更匹配,为TPU提供更优适配潜力,但论文未直接对比TPU实测性能,需进一步验证。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500