就在今天,国产GPU领域迎来了一场“硬核”大秀。摩尔线程在北京举办了首届MUSA开发者大会(MDC 2025),一口气发布了新一代GPU架构“花港”、多款芯片规划、万卡智算集群,甚至推出了自家的AI算力笔记本MTT AIBOOK。作为刚刚登陆科创板的“国产GPU第一股”,这场发布会不仅是技术成果的集中展示,更是在向全世界宣告:中国在全功能GPU和AI算力生态上的布局,已经从“能用”迈向了“好用”的深水区。
新一代“花港”架构:性能跃升与生态野心并存
这次最引人注目的,无疑是摩尔线程历时五年打磨的新一代全功能GPU架构——“花港”。它不只是名字诗意,实力也相当硬核。基于全新指令集,“花港”实现了算力密度提升50%,能效更是飙升10倍,直接刷新了国产GPU的能效天花板。更关键的是,它支持从FP4到FP64的全精度端到端计算,这意味着无论是训练超大规模大模型,还是进行高精度科学计算,它都能胜任。
而真正让我感到震撼的,是它的扩展能力——通过自研的MTLink高速互联技术,可支撑十万卡以上规模的智算集群。这已经不是单打独斗的芯片了,而是瞄准了未来AI基础设施的核心战场。张建中那句“工艺不够,架构来补”,道出了中国企业在先进制程受限背景下的突围智慧:我们拼不了最先进的光刻机,但可以在架构设计上做到极致优化。
“华山”“庐山”双芯出击,覆盖AI与图形两大核心场景
“花港”架构并非空中楼阁,而是有明确的落地路径。摩尔线程同步公布了两款基于该架构的核心芯片:“华山”与“庐山”。
“华山”专攻AI训推一体,目标直指超大规模智能计算。据披露,其浮点算力、访存带宽等关键指标已介于英伟达Hopper与Blackwell架构之间,部分配置甚至实现反超。而“庐山”则聚焦高性能图形渲染,相比前代产品MTT S80,3A游戏性能提升15倍,光线追踪性能提升50倍,并完整支持DirectX 12 Ultimate。这标志着国产GPU不仅能在数据中心跑模型,也能在游戏和专业设计领域提供媲美国际主流的体验。
此外,摩尔线程还发布了“夸娥”万卡智算集群,浮点算力高达10EFLOPS,在Dense大模型上的训练算力利用率(MFU)达到60%,实测数据极具说服力。联合硅基流动在DeepSeek R1 671B模型上的推理测试中,MTT S5000单卡Prefill突破4000 tokens/s,Decode突破1000 tokens/s,创下国产GPU推理性能新纪录,显示出其在真实业务场景中的强大潜力。
构建MUSA生态护城河:从软件栈到开发者入口
如果说硬件是骨骼,那软件和生态就是血肉。摩尔线程深知这一点,因此在大会上全面升级了MUSA 5.0全栈软件体系。其中最值得关注的是即将推出的中间语言MTX——这相当于英伟达CUDA生态中的PTX,能让开发者一次编译,跨代运行,极大降低迁移成本。敢于挑战中间语言,说明摩尔线程不再满足于做一家硬件公司,而是要打造类似CUDA那样的生态护城河。
为了把生态落到实地,他们还推出了首款AI算力本MTT AIBOOK,搭载自研SoC芯片“长江”,提供50TOPS异构AI算力,预售价9999元。这款设备不只是笔记本,更像是为20万MUSA开发者准备的“开箱即用”开发平台,内置Qwen3-8B等大模型,支持多系统切换,旨在打通“云端训练—本地调试—应用部署”的闭环,让开发者真正爱上这个生态。
可以说,摩尔线程正在走一条和英伟达极为相似的路:以统一架构为核心,构建“芯-边-端-云”全栈能力。这条路很难,但正如郑纬民院士所说,发展“主权AI”,必须实现算力自主、算法自强、生态自立。而今天的这场发布会,让我们看到了那个未来的轮廓,正一点点清晰起来。