
近年来,随着大语言模型技术的迅速发展,Deepseek大模型以其独特的技术优势和降本增效的理念,成为业内关注的焦点。本文结合Deepseek的产品介绍、技术创新、行业影响及投资要点,探讨这一新一代推理大模型的意义与未来发展趋势。
01 Deepseek简介
Deepseek(深度求索)于2025年1月20日正式发布了新一代推理大模型——DeepSeek-R1。该模型在数学、代码以及自然语言推理等任务上的表现均堪比OpenAI o1正式版,而其小模型更是超越了OpenAI o1-mini。
这种卓越性能的背后,一方面得益于其针对各类任务设计的精细优化,另一方面则反映了Deepseek在训练成本控制上的诸多创新。
其价格仅为OpenAI相应产品的几十分之一,再加上技术公开且遵循MIT License的开放态度,使得用户能够利用蒸馏技术在此基础上训练出适应不同应用场景的子模型,从而大大降低了入门门槛和研发风险。
02 技术创新与模型表现
DeepSeek共发布R1和R1-Zero这2个版本模型:
R1-Zero基于 DeepSeek-V3-Base,纯粹通过强化学习训练,无监督微调;
R1则基于 R1-Zero,先利用少量人工标注的高质量数据进行冷启动微调,然后再进行强化学习。
因此,了解R1,要先了解V3。在Deepseek的技术构架中,DeepSeek-V3的发布无疑是一大亮点。
2024年12月26日,DeepSeek-V3问世——在多个基准测试中表现优异,使其跻身最强开源模型之列,部分任务甚至达到了与主流闭源模型接近甚至超过的水平。其基础架构依托于Transformer框架,同时融入了Multi-head Latent Attention(多头潜在注意力机制)和DeepSeekMoE(混合专家机制),这些技术不仅提升了模型推理时的效率,也大幅降低了训练所需算力。
1、DeepSeekMoE(混合专家机制)
DeepSeekMoE 是一种效率极高的“混合专家”(Mixture-of-Experts, MoE)架构,你可以把它想象成一个能够智能分工的大脑团队。这种架构的核心思想是,模型内部有很多“专家”(也就是小的子模型),每个专家擅长处理不同的任务或信息,但并不会每次都全部参与工作。DeepSeekMoE 就像一个有精明分工机制的团队:当前有任务时,只会调用最合适的少数几个专家来完成,而不是让所有专家同时参与,从而显著减少计算资源的浪费。
通过这样的设计,DeepSeekMoE 在节省计算开销的同时,还保证了模型的高性能。简单来说,DeepSeekMoE 是一套聪明的管理系统,让这个“团队大脑”效率更高,能力更强,还不浪费资源。
2、Multi-Head Latent Attention(多头潜在注意力)
Multi-Head Latent Attention(多头潜在注意力,简称 MLA)是 DeepSeek-V3 模型中一个特别设计的机制,用于高效处理注意力,同时显著降低计算和存储需求。我们可以把它想象成一种聪明的资源优化策略,帮助模型更快、更省资源地理解和记忆信息流。就像用小纸条代替一本厚笔记本,记住了最核心的内容,还能办事不打折扣!
此外,Deepseek在解码过程中引入了多token预测目标(Multi-Token Prediction, MTP),使得解码速度提升达1.8倍;采用FP8混合精度训练也首次在如此大规模模型上得到了验证,显著减少了内存使用及训练成本。
总结而言,DeepSeek依旧是在大语言模型的框架下,创新点主要聚焦于训练和推理时降低算力成本。这些创新技术的目的都是在保留重要信息(损失少量信息)的基础上实现算力成本的大幅下降。
03 行业影响与未来趋势
通过对Deepseek底层创新的理解,我们清楚Deepseek提供了一个低成本接近高算力模型的方法,而不是跨等级超越高算力模型的方法——即便算力不足,通过算法优化构建的模型,也能够接近算力充裕的大模型的能力;结果上呈现高性价比。
Deepseek的成功不仅在于技术突破,更为整个行业指明了新的发展方向。
首先,Deepseek提出了一种通过算法优化构建低算力成本下接近高算力模型水平的方法论。这一方法尽管通过数据蒸馏舍弃了部分信息,理论上难以在综合能力上全面超越高算力模型,但却为算力资源相对有限的研究和企业提供了切实可行的替代方案,其高性价比效应明显。
其次,从市场需求和外部环境看,当前人工智能技术正处在爆发期。由于技术锁定相对薄弱、开源生态迅速崛起,再加上价格弹性较高的需求状况,资源使用效率的提升往往会导致总体算力需求上升。Deepseek的开源策略使得复制变得更加容易,可能会推动更多企业参与到大模型训练中。
同时,尽管现有大模型的能力在一定程度上还需进一步突破才能实现更广泛的应用,但随着美国凭借充裕算力不断推动高性能模型的突破,其他国家也有望借助算法优化迅速缩小差距,这一时间差将极大缩短,并可能催生杀手级应用的出现。值得注意的是,在应用设计上,我国有望凭借短时间内对新模型训练方法的跟进和技术创新,抢占市场先机。
04 投资视角与考量
从投资角度看,Deepseek的出现对产业链各环节均有一定影响。
首先,尽管英伟达在算力领域的优势短期内未被根本挑战,但随着企业对顶级芯片需求的下降,其产品的溢价效应受到冲击。对于不追求全球领先技术水平的企业而言,Deepseek所代表的降本路线将使得顶级算力需求大幅降低,从而影响英伟达及其上下游企业的市场估值。
其次,对于国产算力方向,成本的下降可能吸引更多企业加大模型训练投入,从而导致整体算力需求反而上升。在外部制裁和环境压力的背景下,国产芯片厂商承接市场总量上升的概率更大。
第三,国产AI应用领域,尤其是在自动驾驶和机器人方向,虽然在短期内能够从降本中获利,但性能提升仍需时间积累,也取决于高算力模型的突破。但是,每一次高算力模型的技术突破,都意味着国内在技术和应用上亦有望迎头赶上。
最后,对于互联网公司而言,短期内云服务需求增加能够带来直接红利,而长期来看,杀手级应用的期权价值亦不可小觑,不过挑战和竞争也将日益激烈。
-
Deepseek大模型的推出不仅在技术和训练策略上做出了许多创新,更为算力不足条件下的大模型优化提供了新的思路。以降本提效为核心的策略,不仅有助于推动开源体系的普及,还将促使整个行业在多方竞争中形成多元化发展局面。
未来,随着各国在算力和算法优化上的博弈加剧,Deepseek及其代表的创新模式无疑将对产业链、市场竞争以及投资策略产生深远影响。
#YU7三分钟大定20万台!小米ADR暴涨##AI算力需求高景气 产业链股持续活跃##英伟达再创历史新高##“算力航母”启航在即,机会来了?#
风险提示:以上观点仅供参考,不作为任何投资建议。本文中提及相关基金仅作为介绍示意使用,不构成任何形式的基金推荐。本专栏观点、分析及评论仅代表作者个人意见,不代表易方达基金管理公司(以下简称“本公司”)立场,也不构成对阅读者的投资建议。本公司或本公司相关机构、雇员或代理人不对任何人使用此全部或部分内容的行为或由此而引致的任何损失承担任何责任。未经本公司事先书面许可,任何人不得将此报告或其任何部分以任何形式进行派发、复制、转载或发布,或对本专栏内容进行任何有悖原意的删节或修改。基金有风险,投资须谨慎,详阅基金法律文件。请投资者在全面了解基金产品的风险收益特征、运作特点及销售机构适当性意见的基础上,审慎作出投资决策。
$易方达优选多资产三个月持有混合(FOF)A(OTCFUND|007896)$$易方达优选多资产三个月持有混合(FOF)C(OTCFUND|007897)$$易方达如意安泰(FOF)A(OTCFUND|009213)$$易方达如意安泰(FOF)C(OTCFUND|009214)$
$易方达优势价值一年持有混合(FOF)A(OTCFUND|013287)$$易方达优势价值一年持有混合(FOF)C(OTCFUND|013288)$$易方达优势领航六个月持有混合(FOF)A(OTCFUND|012652)$$易方达优势领航六个月持有混合(FOF)C(OTCFUND|012653)$
$易方达全球成长精选混合(QDII)人民币A(OTCFUND|012920)$$易方达全球成长精选混合(QDII)美元现汇A(OTCFUND|012921)$