品高股份捆绑式重组江原科技,总裁李瑛:以1000p的计算中心为例,使用江原20产品比使用英伟达h20,每年节省电费1500万元 $寒武纪-U(SH688256)$ $摩尔线程(SH688795)$ $英伟达(NASDAQ|NVDA)$

摩尔线程有多款芯片,其中主打AI计算的MTT S5000与英伟达H20的性能对比最受关注,其余产品和H20差距较大,整体呈现“部分场景有亮点,核心AI算力、显存及生态仍落后”的特点,具体如下:
1. 核心AI算力:H20在主流AI算力指标上占优。H20的FP16/BF16算力达148 TFLOPS,FP8算力更是296 TFLOPS,适配当前AI混合精度计算的主流需求;而摩尔线程S5000虽FP32算力达32 TFLOPS,接近H20的44 TFLOPS,但它在AI核心的FP16、FP8算力数据未公开,仅传闻适配MoE大模型训练,实际表现缺乏明确数据支撑。且摩尔线程前代的MTT S4000、MTT S80等产品,算力和H20差距显著,比如S80的FP32算力仅14.7 TFLOPS,仅适配轻量级AI推理。
2. 显存与互联能力:H20的优势十分明显。它配备96GB HBM3显存,带宽达4.0 TB/s,还支持900GB/s的NVLink高速互联,能轻松满足千亿参数大模型的高带宽数据传输需求,适配8卡HGX服务器集群部署。而摩尔线程S5000显存容量约80GB,带宽未披露;即便是千卡智算集群的MTT S3000,其多卡互联和显存带宽也远低于H20,大模型运行时的数据传输效率会受影响。
3. 不同场景表现:推理场景中,摩尔线程部分产品有惊喜,曾有测试显示其芯片在BERT模型推理的量比H20高出15%;但H20凭借大显存和高带宽,在头部互联网厂商的高推理场景中更具竞争力。训练场景上,H20本身算力较H100大幅削减,难支撑主流大模型高强度训练,而摩尔线程S5000构建的集群可支持200B参数MoE大模型全量预训练,这一领域H20与S5000不构成直接竞争,S5000更具优势。
4. 生态兼容性:H20依托英伟达CUDA生态占据绝对优势,该生态拥有约600万开发者,适配超海量AI框架和应用,开发迁移成本极低。摩尔线程虽靠自研MUSA架构做CUDA兼容,适配了200多个主流AI框架,但适配算子数量仅为英伟达的70%,在复杂场景下的迁移和优化成本较高,开发者群体和适配软件体量也远不及前者
江原科技的d20与英伟达的h20:推理能效与运营成本:如果你关注长期电费和散热压力,D20更省、更安静。整卡约145W,配合大显存做云端推理更省电;有案例以1000匹计算中心为例,D20对比H20每年可节约电费约1500万元,适合中小企业和私有化部署场景。
- 模型规模与显存需求:百亿到千亿参数的推理,D20的大显存更从容(单卡最高256GB,单机可扩至4TB)。H20的96GB更适合中等规模或对带宽更敏感的任务。
- 生态与兼容:需要CUDA生态、快速迁移现有代码,H20更省心。CUDA覆盖广泛、算子丰富;D20走全栈国产化与适配,已完成与浪潮、新华三等整机及主流CPU平台的适配,降低替代成本。
- 多卡/集群扩展:追求高密度集群和高速卡间通信,H20的NVLink 900GB/s更有优势。D20通过一卡双芯提升单机算力密度,也能做集群扩展,但更强调性价比与低功耗。
- 视频编解码/多媒体:有大量视频流处理需求,D20原生支持256路高清解码、20路编码,更贴近安防、直播等场景。H20也具备媒体引擎,但规格侧重不同。
- 自主可控与供应链:关键领域要求全国产、供应链安全,D20从设计到封测全流程本土化,更符合信创、政务等需求。H20受出口管制影响,供应存在不确定性。