财联社11月7日讯(记者付静)正在举行的“2025世界互联网大会乌镇峰会”上,中科曙光(603019.SH)发布了全球首个单机柜级640卡超节点scaleX640。
财联社记者获悉,scaleX640超节点采用“一拖二”高密架构设计,单机柜640卡超高速总线互连可构建大规模、高带宽、低时延的超节点通信域,双scaleX640超节点则可组成千卡级计算单元。
当前超节点成为算力领域一大热门趋势,此次中科曙光超节点方案采用AI计算开放架构,有望对生态协同起到较大促进作用,支持国产智算集群加速迈向“好用”。
“整个算力生态的打磨和需求方对国产算力的接受一定是常态化且是长周期的过程。现在国内算力的被接受程度在持续快速提升,从实际业务开展方面能得到感知。”谈及国产算力发展,中科曙光总裁助理、智能计算产品事业部总经理杜夏威告诉财联社记者。
采用开放架构强调生态协同
据了解,scaleX640超节点采用AI计算开放架构,在硬件层面支持多品牌加速卡,软件层面兼容主流计算生态,支持MoE万亿参数大模型训练、高通量推理、科学智能(AI4S)等前沿场景。
公司方面介绍,相比业界同类产品,scaleX640超节点的综合算力性能实现了倍增,单机柜算力密度提升20倍;相比传统方案,可实现MoE万亿参数大模型训练推理场景30%-40%的性能提升。同时,scaleX640超节点可保障10万卡级超大规模集群扩展部署。
据了解,人工智能规模化落地的主要瓶颈,在于算力基础设施能否跨越从“技术可行”到“商业可用”的鸿沟,现阶段的国产化进程还面临高端芯片算力不足、标准缺失、软硬件割裂、协作成本高等痛点。
中科曙光方面认为,一要坚持系统级创新,根据大模型需求,围绕核心芯片设计数据通路,让计算传输与缓存更协同,同时计算、冷却、供电进一步高度耦合,提升效率;二是加强生态耦合协同,做技术或能力共享,如在芯片间互联技术、柜体供电冷却技术、系统硬件架构设计等方面形成共识。
今年9月,中科曙光协同20多家产业链上下游企业发布了国内首个AI计算开放架构,以期降低AI集群研发门槛,避免重复投入。
谈及以开放架构发展大规模智算集群,杜夏威在接受财联社等媒体采访时表示,“我们协同了很多生态伙伴一起参与,这也是我们几个月前在重庆发布AI开放计算架构思路的延续,scaleX640属于设计思路之后一个具象化的产品。大模型为代表的AI产业各层级板块都比较火,我们还是希望大家能有所专长,在自己擅长的领域里完成产品打磨,最终耦合形成一套系统,至少这样的系统在构建上来说不会存在比较明显的短板,是集合了生态链条所长的。”
超节点改变算力中心范式?
值得关注的是,今年以来已有诸多国内厂商布局了超节点。
财联社记者前期采访获悉,作为典型的汇聚算力产业链成果的整体方案,超节点是AI算力基础设施方面的一大重要趋势,将为国内算力产业发展提供新机遇。更有算力从业者预计,超节点会成为明年智算中心的主流产品。
此前华为的昇腾384超节点方案备受业界关注,该方案由12个计算柜和4个总线柜构成,于今年5月的鲲鹏昇腾开发者大会上推出,旨在解决由服务器、存储、网络等设备堆叠而成的传统集群,在大规模训练时面临的资源利用率低、故障频发等挑战。
今年云栖大会上,阿里云发布全新一代磐久128超节点AI服务器。该服务器单柜支持128个AI计算芯片,集成阿里自研CIPU2.0芯片和EIC/MOC高性能网卡,采用开放架构。
今年WAIC期间,财联社记者从新华三方面获悉,其UniPoD超节点单机柜支持64卡,并可扩展到万卡GPU集群。
此外,浪潮信息(000977.SZ)也已发布元脑SD200超节点AI服务器。实测数据显示,元脑SD200运行DeepSeek R1大模型时,token生成速度达到8.9毫秒。浪潮信息强调token生成速度,公司首席AI战略官刘军近期对外表示,“在AI超节点系统的设计上,不应该再依照惯性思维过分追求规模,而应该从客户视角出发,把token交互速度作为关键衡量指标。”
杜夏威表示,“整体技术趋势,大家会有一定的共识,相信大家都看到过非常多的超节点,从直观的集成化程度和产品化程度来说,还是能看出来很多的差异。曙光一直专注于系统层级产品化设计,我们较早地提出了类似于系统化工程的理念,芯片厂商可能聚焦在自己单一芯片的能力上,有些网络厂商聚焦网络扩展的能力层面。”
他进一步表示,“整体来讲,(一家厂商)是否在过往经历过比如万卡级别的调试和相应的储备,这不仅包含了硬件层面的产品化打磨,也包含了软件和业务层面实际测试与应用调优。这一系列的功底和积累会体现在产品实际使用上,最终效果是用户用得起来,而不仅仅停留在噱头层面。”
财联社记者关注到,有从业者曾表示,“怎样的算力形态能够满足当下或未来的大模型使用需求?超节点已经成为了公认的答案。随着模型规模扩大,我们需要更强大、更均衡的算力,带来更高性能的大规模并行运算能力。同时也需要更高的计算密度、更低的能耗以及硬件与软件的深度适配和优化。”
不过杜夏威也表示,超节点并不会改变原来算力中心建设或运行的范式。“其实真正改变这个系统建设、使用模与服务模式的范式,可能会是未来人工智能更加强大之后的赋能,比如说智能体的发展,使AI成为工具和计算技术调用的入口和中枢,那时对算力中心的建设、服务模式才是颠覆性的。”