华创证券：DeepSeek开源周发布五大AI基础优化方案_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2025-03-03 14:26:10 股吧网页版

华创证券：DeepSeek开源周发布五大AI基础优化方案

来源：财中社

　　3月3日，事项：

　　2025年2月24日至2025年2月28日，DeepSeek举行为期五天的“开源周”，连续开源五个软件库，旨在以完全透明的方式与全球开发者社区分享其在通用人工智能（AGI）领域的研究进展。五个软件库向业界展示了一套重塑AI基础设施效率的全景方案，涵盖底层加速解码、专家并行通信、核心矩阵运算、分布式训练的流水线优化、数据处理系统的构建，共同构筑了一个面向大规模AI的高性能基石。

　　华创证券发表评论：

　　显存的“节流阀”：FlashMLA是一种专为NVIDIAHopper架构GPU优化的高效注意力解码内核，旨在提升大规模语言模型（LLM）在推理阶段的性能，尤其在处理可变长度序列时表现突出。FlashMLA能自行调配计算资源，通过动态资源分配优化显存使用，在H800集群上达到3000GB/s的内存限制性能和580TFLOPS的计算限制性能，实现了3倍显存利用率提升。

　　通信的“智能交通系统”：DeepEP是首个用于MoE（混合专家模型）训练和推理的开源EP通信库，它解决了MoE的通信瓶颈，支持优化的全对全通信模式，使数据能够在各个节点间高效传输。

　　矩阵运算的“编译器”：DeepGEMM作为矩阵乘法加速库，为V3/R1的训练和推理提供支持。DeepGEMM采用了DeepSeek-V3中提出的细粒度scaling技术，将FP8引入GEMM内核，仅用300行代码就实现了简洁高效的FP8通用矩阵乘法。DeepGEMM支持普通GEMM以及专家混合（MoE）分组GEMM，在HopperGPU上最高可达到1350+FP8TFLOPS（每秒万亿次浮点运算）的计算性能，在各种矩阵形状上的性能与专家调优的库相当，甚至在某些情况下更优，且安装时无需编译，通过轻量级JIT模块在运行时编译所有内核。

　　并行训练的“指挥”：DualPipe和EPLB旨在解决大模型分布式训练中的并行调度和负载均衡问题。DualPipe是一种用于V3/R1训练中计算与通信重叠的双向管道并行算法，通过实现向前与向后计算通信阶段的双向重叠，将硬件资源利用率提升超30%，减少资源浪费。EPLB是一种针对V3/R1的专家并行负载均衡器。基于混合专家（MoE）架构，它通过冗余专家策略复制高负载专家，并结合启发式分配算法优化GPU间的负载分布，减少GPU闲置现象。

　　AI专属的分布式文件系统：3FS是一个专为AI训练和大数据处理设计的高性能并行分布式文件系统，能实现高速数据访问，提升AI模型训练和推理的效率。性能方面，3FS在180节点集群中实现了6.6TiB/s的聚合读取吞吐量；在25节点集群的GraySort基准测试中达到3.66TiB/min的吞吐量；每个客户端节点在KVCache查找时可达到40+GiB/s的峰值吞吐量。

（文章来源：财中社） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》