DeepSeek 启动“开源周”_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2025-02-24 20:42:50 股吧网页版

DeepSeek 启动“开源周”

来源：上海证券报

　　2月24日，DeepSeek启动“开源周”，开源了首个代码库FlashMLA。

　　DeepSeek称，这是DeepSeek针对Hopper GPU优化的高效MLA解码内核，专为处理可变长度序列而设计，现在已经投入生产使用。“在H800上能实现3000 GB/s的内存带宽以及580 TFLOPS的计算性能。”DeepSeek表示。

　　据介绍，MLA（多层注意力机制）是一种改进的注意力机制，旨在提高Transformer模型在处理长序列时的效率和性能。MLA通过多个头（head）的并行计算，让模型能够同时关注文本中不同位置和不同语义层面的信息，从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构。

　　DeepSeek介绍称，FlashMLA受到FlashAttention2&3和CUTLASS项目的启发。其中，FlashAttention能实现快速且内存高效的精确注意力；CUTLASS是由英伟达开发和维护的开源项目。

　　2月21日，DeepSeek在社交平台发文称，构建了一支探索AGI（通用人工智能）的小团队，将开源5个代码库，以完全透明的方式分享研究进展。DeepSeek表示，其在线服务中的构建模块已经被记录、部署并进行了实际测试，希望分享的每一行代码都会变成强有力的势能，加速行业发展进程。

　　“开源技术正从代码共享迈向实体创新，成为推动智能未来的关键力量。开源硬件为技术创新提供了自由与灵活性，而中国开源生态的发展，如DeepSeek的成功，展现了开源从‘运营驱动’向‘价值驱动’的转变。”上海开源信息技术协会秘书长朱其罡称。

　　今年以来，国内外各大头部厂商纷纷“加码”开源模型。豆包、昆仑万维、百度文心、阿里通义千问均推出开源模型。

　　在刚刚结束的2025全球开发者先锋大会上，“底层模型的一次重大迭代，对产品带来的优化效果会远超在工程实现层面。”Minimax副总裁刘华表示，当大模型在专业领域拥有专业人士水平以后，新的产品形态就会到来。该产品形态应该是AI Agent，它能主动帮助人类解决问题，在复杂场景中落地，真正提高生产力。

（文章来源：上海证券报） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》