• 最近访问:
发表于 2025-12-20 15:57:59 股吧网页版
摩尔线程新一代GPU架构“花港”发布!支持十万卡智算集群扩展
来源:财联社


K图 688795_0]

  在今日举行的首届MUSA开发者大会上,摩尔线程发布新一代全功能GPU架构“花港”,以及基于“花港”架构的AI训推一体芯片“华山”和专攻高性能图形渲染的芯片“庐山”。

  同时,摩尔线程正式推出了夸娥万卡智算集群,搭载自研“长江”智能SoC 芯片的AI算力本 MTT AIBOOK。

  《科创板日报》记者在现场看到,当虹科技、中望软件等多家科创板上市公司与摩尔线程开展合作。其中,当虹科技BlackEye多模态空间大模型基于摩尔线程GPU,满足超高清直播实时转码、离线视频增强等等高性能需求;中控技术的时间序列大模型与摩尔线程的GPU完成了适配;中望软件与摩尔线程推出了全栈国产化三维CAD一体化解决方案,适配多种国产CPU与操作系统。

  ▍新一代GPU架构“花港”发布

  摩尔线程创始人、董事长兼CEO张建中介绍,新发布的GPU架构“花港”, 基于新一代指令集,算力密度提升50%;支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持。集成新一代异步编程模型,优化任务调度与并行机制;通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展。

  基于“花港”架构,摩尔线程公布了未来将发布的两款芯片技术路线:

  “华山”专注AI训推一体与超大规模智能计算。集成新一代异步编程与全精度张量计算单元,支持从FP4至FP64的全精度计算,为万卡级智算集群提供算力支撑。

  “庐山”专攻高性能图形渲染。在图形性能方面,AI计算性能提升64倍,几何处理性能提升16倍,光线追踪性能提升50倍。集成AI生成式渲染、UniTE统一渲染架构及全新硬件光追引擎,为3A游戏、高端图形创作提供算力支持。

  本次大会正式发布了夸娥万卡智算集群,浮点运算能力为10Exa-Flops,训练算力利用率(MFU)在Dense大模型上达60%,MOE大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%,与国际主流生态高度兼容。

  摩尔线程公布了MTT C256超节点的架构规划。该产品采用计算与交换一体化的高密设计,旨在系统性提升万卡集群的训练效能与推理能力,支撑下一代超大规模智算中心建设。

  在具身智能方面,摩尔线程推出MT Lambda具身智能仿真训练平台,推出基于智能SoC芯片“长江”、AI模组MTT E300和夸娥智算集群“端云结合”的MT Robot具身智能解决方案,并宣布将于2026年第一季度开源关键仿真加速组件Mujoco-warp-MUSA,以助力机器人产业研发效率提升。

  此外,摩尔线程发布会上还发布面向开发者的AI算力本 MTT AIBOOK,搭载自研“长江”智能SoC,提供高达50TOPS的端侧AI算力。同时预告了基于“长江”SoC打造的迷你型计算设备MTT AICube。

  ▍国产GPU芯片要实现生态自立

  英伟达CUDA软件系统生态被业内普遍认为是其最大护城河,也是国产GPU厂商的薄弱之处。

  中国工程院院士、清华大学计算机系教授郑纬民表示,国产GPU芯片要实现生态自立,实现从“能跑”到愿意用。

  “真正决定主权AI生态成败的,在于是否有足够多的开发者愿意长期在这套栈上写代码。开发者是生态的核心资源,国产平台需要解决迁移成本太高、工具链不成熟,文档/社区与支持不足。实现从‘能用’到‘愿用’的根本性转变,关键在于开发体验。”

  目前,摩尔线程对MUSA 软件架构升级到5.0版本,兼容 TileLang、Triton 等编程语言,核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率为97%,编译器性能提升3倍,并集成高性能算子库。后续,计划逐步开源计算加速库、通信库及系统管理框架在内的核心组件,向开发者社区开放底层能力。

  摩尔线程创始人、董事长兼CEO张建中还透露,即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q,以及计算光刻库muLitho。

  对于国产AI芯片软件生态存在的“内卷”与碎片化问题,郑纬民认为,多家厂商各自构建软件栈与接口标准,下游开发者需要为不同平台重复适配。同时,缺乏统一的加速器接口与部分关键组件的开源标准,实现互操作难度大。在生态资源有限的前提下,容易陷入低水平重复建设与“内卷”竞争。

  郑纬民表示,应建立面向国产加速器的统一或高度兼容的接口标准,减少软件层的无谓分裂。通过产业联盟机制推动芯片厂商、框架团队、系统厂商与头部应用方开展联合优化。在关键基础软件比如通信库、编译器框架、异构调度系统等上形成共享的开放底座。

  郑纬民呼吁,产业团结与协同对于缓解“应用不足、生态薄弱”尤为关键,只有当国产AI卡在真实业务中被大规模使用生态才会具备自我强化的正反馈。

  ▍“万卡甚至十万卡集群”是必选项

  会上发布的摩尔线程新一代GPU架构“花港”,支持十万卡以上规模智算集群扩展。

  郑纬民在演讲中提到, 从国产万卡至十万卡系统很难,但从主权AI基建角度,是不得不走的一步。因为模型时代的基本单位是集群总算力,不是单卡性能。预训练超大规模模型、服务国民级推理需求,需要持续可用的万卡级训练集群。

  “目前在工程上的主要挑战在于,在没有专有封闭互连的情况下,基于以太网等通用网络实现 All-Reduce 与低延迟通信是关键难点。可靠性与运维有待提升,万卡集群单点故障是常态,需要断点续训、容错训练算法、自动化运维与监控。”郑纬民称。

  在能耗与供电散热方面,十万卡规模对应的是百兆瓦级电力需求,需要机房、园区级综合设计。

  郑纬民表示,国产集群实践表明,在“通用网络+自研通信库+软硬件”协同设计下,仍然可以构建“可用”的大规模系统,但需要长期持续的工程投入。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500