• 最近访问:
发表于 2025-02-19 01:31:40 股吧网页版
刚刚!DeepSeek重大发布!梁文锋参与共创!
来源:每日经济新闻

  2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力)。

  据介绍,NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

CFF20LXzkOySME66m7r8N7ibHjYjAVFPrynFl1dR0mkG7DLwbZV9pMBxycKciafL0ONp4lwFhKbxBUUfz3L2QxVQ.jpg

  在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人兼CEO梁文锋也作为共创在列。

CFF20LXzkOySME66m7r8N7ibHjYjAVFPrOibRsm9FiaQJ73k5P6JkH1L4Jg5bcibUBLdfjzDqDSul7HbQ1aTqmQuiag.jpg

  其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。

  值得一提的是,今日中午12点(太平洋时间17日晚8点),马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式,观看人数超过100万人。

CFF20LXzkOySME66m7r8N7ibHjYjAVFPraRGGG8So4icn2uCbtb7Y0uDxynOSSNibibZDPjzRYLxsTiarOSbQ61SveQ.png

  图片来源:直播截图

  Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应,它可以分析图像和回答问题,并为X上的许多功能提供支持。此前马斯克在X上造势称,Grok 3是“地球上最聪明的人工智能”。

  在此次直播中,马斯克透露,实际上,到训练进行到92天时,集群的规模已经扩大到了20万块GPU。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500