• 最近访问:
发表于 2025-12-19 21:32:09 股吧网页版
超节点互连技术落地 国产万卡超集群首次真机亮相
来源:21世纪经济报道


K图 603019_0

  12月18日,中科曙光在光合组织2025人工智能创新大会(HAIC2025)上发布并展出了scaleX万卡超集群,这是国产万卡级AI集群系统首次以真机形式亮相。

  在此之前,国内的万卡集群项目多以分散服务器、技术蓝图或在建工程的形式存在。如三大运营商已投产运营的万卡集群,多为分散部署在庞大机房内的标准服务器,虽然已实现商业运营,但其物理形态并非一体化单元。

  scaleX万卡超集群由16个曙光scaleX640超节点互连而成。作为世界首个单机柜级640卡超节点,scaleX640采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04。

  同样在今年,华为昇腾384超节点真机在2025世界人工智能大会期间首秀。从华为昇腾384超节点到scaleX万卡超集群接连真机亮相,国产算力“大基建”正从图纸走进现实。

  超节点支撑万卡级集群

  随着主流大模型参数从千亿级跃升至万亿级规模,算力需求持续爆发式增长,EFLOPS算力级别、万卡级别高性能集群成为大模型标配。

  超节点(SuperPod)因密度和性能优势,正成为新建万卡集群的首选架构之一。

  其应算力需求而生。中科曙光高级副总裁李斌在接受21世纪经济报道等媒体采访时指出,在算力要求不高的时代,IT组件的解耦设计提供了无与伦比的灵活性,允许通过标准网络轻松扩展。然而,当前算法对算力的苛刻要求,迫使业界必须牺牲部分通用性,以换取性能的极致优化。

  作为一种Scale-up(纵向扩展)解决方案,超节点目前已被中科曙光scaleX640、华为Atlas超节点、英伟达NVL72等产品应用。其将大量AI加速卡以超高密度集成在单个或少数几个机柜内,通过内部高速总线或专用互连网络,实现“物理多机、逻辑单机”的新型计算单元。

  就单机柜而言,中科曙光11月发布的全球首个单机柜级640卡超节点——scaleX640,是全球已公开的、在单个机柜内集成加速卡数量最多的超节点产品。

  “谁家的柜体集成度越高,竞争优势越大。”中科曙光总裁助理、智能计算产品事业部总经理杜夏威指出,在当前技术范式下,柜内互联采用高效低成本的电信号,柜间则依赖高功耗、高成本的光模块。在单机柜内把芯片互连规模做大,可以让芯片之间的互连更加可靠、高效。

  此次中科曙光发布的scaleX万卡超集群,由16个曙光scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5EFlops。

  超节点互连形成万卡集群,首先通过Scale-up策略,将数百张加速卡集成为一个内部高速互联的超级计算单体,以此克服传统集群的通信瓶颈;其次将这些超节点作为标准单元进行Scale-out(横向扩展),最终构筑起万卡规模的宏大体量。这也是行业构建大规模智算集群的主流架构思路。

  万卡之上

  不止万卡集群,国际上Meta、微软、OpenAI等AI巨头陆续宣布或者完成10万卡集群建设。

  从此前的千卡集群到如今的万卡,再到将来的几十万卡甚至百万卡集群,高速互连的重要性愈加凸显。

  在超节点间,曙光scaleFabric网络基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,并可将超集群规模扩展至10万卡以上,相比传统IB网络提升2.33倍,同时网络总体成本降低30%。

  谈及自研原生RDMA高速网络的重要性,李斌举例指出,英伟达在生态体系里构建了芯片“三驾马车”:第一驾是核心的GPU,提供澎湃算力;第二驾是NVLink,负责节点内超高速互联,实现极致的Scale-Up;而第三驾,正是基于Mellanox技术的InfiniBand网络,它承担着节点间Scale-Out的重任。

  中信证券研究指出,相较于传统八卡服务器,超节点面临更为复杂的系统性挑战:一是海量芯片协同工作带来的系统散热压力;二是多芯片间光、铜混合互连方案引发的稳定性问题;三是多零部件长期运行下的可靠性隐患。这类问题往往需要服务器厂商与上游各环节厂商深度协同,方能探索全局最优解决方案,这也使得整机环节在产业链中的话语权显著提升。

  在超节点的基础上,李斌指出,当智算集群的规模扩展至万卡乃至十万卡级别,集群设计与建设面临着可扩展性、可靠性与能效三大核心挑战。首先,为保证可扩展性,必须构建一个具备高带宽、低延迟的强大互连网络,确保集群规模增长时计算效率不会出现断崖式下降,并实现大规模组网下的有效管理。

  其次,可靠性成为严峻考验。海量设备数量的累加会遵循“木桶效应”,即便单点可靠性极高,整体系统的无故障运行时间也会被指数级拉低。

  最紧迫的还是能耗与能效问题:随着单个算力中心体量从MW级向未来GW级演进,传统的供电技术已难以为继,必须实现供电技术的根本性突破,并辅以先进的软件管理调度,才能保证这个庞大系统的高效、稳定与可持续运行。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500