近日,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了国际权威期刊《自然(Nature)》第645期的封面。论文研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。
在中国科技产业涌现创新性成果的过程中,资金快速涌入科技板块。Choice数据显示,科创人工智能ETF华夏盘中一度飙涨近4%,东财人工智能指数午盘也收涨2.43%。多位业内人士称,大模型训练与推理应用正在全球范围内规模化落地,未来AI产业链的高景气度将持续推动相关企业收入、利润与盈利能力的协同提升,相关机会有望持续演绎。
DeepSeek-R1训练方法发布
具体来看,与今年1月发布的DeepSeek-R1的初版论文相比,此次论文披露了更多模型训练的细节,并对发布初期外界有关“蒸馏”方法的质疑作出了正面回应。
该论文研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。
如果说,此前的研究主要依赖大量的监督数据来提升模型性能。那么DeepSeek开发团队则选择新路线:不用监督微调(SFT)作为冷启动,通过大规模强化学习(RL)也能显著提升模型的推理能力。
DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。
此外,值得一提的是,开发团队观察到,DeepSeek-R1-Zero学会了通过重新评估初始方法来更合理地分配思考时间。
DeepSeek小步迭代
今年年初,开源大模型DeepSeek曾掀起“开源潮”,引爆AI行业。作为一款开源模型,DeepSeek-R1在数学、代码、自然语言推理等任务上的性能能够与国际头部模型比肩。
8月,在外界纷纷期待DeepSeek-R2发布之时,DeepSeek小步快跑,宣布发布DeepSeek-V3.1。
据介绍,DeepSeek-V3.1的升级包含以下主要变化。一是实现混合推理架构,即一个模型同时支持思考模式与非思考模式;二是更高的思考效率,相比DeepSeek-R1-0528,DeepSeek-V3.1-Think能在更短时间内给出答案;三是更强的Agent能力,新模型在工具使用与智能体任务中的表现有较大提升。
同时,DeepSeek宣布,DeepSeek-V3.1使用了UE8M0 FP8 Scale的参数精度。其中,UE8M0 FP8是针对即将发布的下一代国产芯片设计。当日,DeepSeek概念板块火热。不少国产芯片产业链企业股价大涨。
资金加速流入科技板块
中国科技产业频现创新成果背景下,各路资金涌入科技板块。
Choice数据显示,科创人工智能ETF华夏盘中一度飙涨近4%,东财人工智能指数午盘也收涨2.43%。
9月18日,第二批14只科创债ETF集中发布基金合同生效公告,发行规模合计为407.86亿元。其中,13只科创债ETF发行规模均超过29亿元。
另外,私募排排网统计数据显示,截至9月9日,按定增上市日统计,今年以来共有41家私募参与了分布于15个申万一级行业的41家上市公司的定增,合计获配金额达39.6亿元。其中,截至9月9日,今年以来私募参与电子板块定增项目的获配金额达10.98亿元,占比达27.7%。
望正资产近日发表观点称,2023年以来,人工智能产业蓬勃发展,已有不少相关企业展现出强劲增长。盈利是驱动股价上行的核心驱动力,后续将研究和布局商业模式成熟、收入利润进入快速增长通道的标的,包括AI算力、AI应用等领域优质企业。
淡水泉也在接受上证报记者采访时表示,公司投资关注两个方向:一是新兴成长领域具备业绩持续性的优质公司,包括AI科技、创新药等细分行业的龙头股;二是周期领域中竞争力突出、受益于“反内卷”政策或美元走弱趋势的头部企业。