_天普股份(605255)股吧_东方财富网股吧

股吧首页 > 天普股份吧 > 正文

最近访问：

天普股份吧

返回天普股份吧>>

- 重要股东股权质押数据全览

姐是花木兰

发表于 2026-01-03 13:53:52 东方财富Android版发布于广东

姐读985应用数学，毕业也是做计算机程序编程的，一看就明白。

◆

空仓即满仓

发表于 2026-01-03 12:02:07 发布于浙江

[天普股份吧] DeepSeek团队在2025年12月31日（北京时间2026年1月1日）于ar

$天普股份(SH605255)$

DeepSeek团队在2025年12月31日（北京时间2026年1月1日）于arXiv预印本平台发布了最新论文《mHC: Manifold-Constrained Hyper-Connections》，提出mHC（流形约束超连接）架构，旨在解决大模型训练中的稳定性与效率难题。该研究由创始人梁文锋领衔，核心贡献在于对超连接（HC）范式的改进，通过引入流形约束机制平衡模型性能与训练鲁棒性。

mHC的核心机制在于通过几何约束提升训练稳定性。传统残差连接依赖恒等映射保障信号传播稳定，但HC等扩展结构因自由形态易引发梯度爆炸（如27B模型中信号放大倍数达3000）。mHC将残差映射矩阵投影到双随机矩阵流形（如Birkhoff多面体），利用Sinkhorn-Knopp算法实现能量守恒，使矩阵行列和为1，从而抑制信号指数级放大；这一约束恢复了类似恒等映射的特性，同时保持拓扑表达力。实验表明，mHC将信号放大控制在1.6以内，显著优于HC的3000，且梯度范数稳定，损失曲线平稳收敛。

在效率与可扩展性方面，mHC通过优化实现高效训练。针对分布式训练，mHC在DBC框架（假设为DeepSeek自研或通用弹性分布式架构）上集成内核融合、重计算和通信重叠优化，当扩展率n=4时仅引入6.7%的额外训练时间开销。内存占用降低40%，GPU带宽提升22%，流水线效率使GPU利用率超过90%。在3B至27B参数规模验证中，mHC的性能增益随规模扩大而增强（如DROP任务提升从1.5%增至2.3%），且在1T token训练下无过拟合，显示良好的泛化能力。

mHC的架构设计降低了对特定硬件的依赖。通过流形约束减少数值不稳定，mHC对计算精度和通信带宽的要求更宽松，间接降低了对英伟达GPU高带宽内存的依赖。同时，其优化策略（如内核融合和通信重叠）与TPU专用架构的数据并行和低精度计算特性更匹配，为TPU提供更优适配潜力，但论文未直接对比TPU实测性能，需进一步验证。

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》