股吧首页 > 百度吧 > 正文
  • 最近访问:
发表于 2026-01-03 03:43:39 股吧网页版
视频大模型从“玩具”走向生产力工具
来源:中国经营网 作者:李静

  过亿条的视频正在被AI大模型生成。2025年,视频生成大模型在技术飞速进步与商业化探索中,正经历着从“玩具”向“生产力工具”的关键转型。

  “如果成本下不来,用户基本不会用。我们希望让更多人能够用起来。”百度副总裁陈一凡在谈及蒸汽机大模型的免费策略时曾如此表示。2025年下半年,百度通过推出限时免费的Turbo版本正式进军视频生成领域,犹如一条鲇鱼搅动了原本平静的市场。

  2025年,中美视频生成大模型双轨竞争格局基本成型:OpenAI发布Sora2并巧妙融入社交功能,引发全球用户创作热潮;与此同时,国内快手的可灵、百度的蒸汽机、字节跳动的Seedance等产品在2025年密集迭代,行业在技术可控性、多模态融合与商业落地方面取得显著进展。

  站在2025年年末回望,这一年既是视频生成大模型的技术突破年,也是市场竞争白热化的一年。展望2026年,行业或将迎来从“能生成”向“好生成、快生成、可交互生成”的深度演进。

  技术跃迁

  2025年,视频生成大模型厂家相继推出多个版本,技术焦点从“能否生成”转向“如何更好地生成”。

  在国内厂商中,快手可灵AI自2024年6月发布以来,在一年半时间内已完成超30次迭代升级,平均每半个月就有一次优化。阿里巴巴的通义万相视频大模型在2025年完成5次重要迭代,其12月推出的2.6版本新增了角色扮演与分镜控制功能。字节跳动在2025年年末发布的Seedance1.5 pro,则重点优化了音视频生成效率与泛化能力。

  华创证券在研报中指出,从模型层看,2025年多款主流模型视频生成效果朝着画面更高清、时长更长、物理更拟真等多方位进步;主体跨帧一致性、复杂语义理解等长期难题得到缓解。

  Omdia高级首席分析师詹墨磊对记者指出,2025年视频生成大模型行业实现了两大关键技术突破:一是对物理规律的理解增强,如国外的Sora2和Runway Gen-4.5能模拟物体重量、碰撞反弹、液体流动与布料飘动;二是音画同步能力成熟,如阿里WAN、火山引擎Seedance1.5 Pro、百度蒸汽机模型,均支持端到端生成带口型匹配的语音视频,无须后期配音。

  百度蒸汽机团队在2025年10月展示了实时交互与长视频生成能力。百度商业研发首席架构师李双龙透露道:“团队将窗口期的扩散生成转变为回归流式的扩展生成,解决了长视频生成的技术瓶颈。”

  火山引擎总裁谭待在接受《中国经营报》记者采访时特别强调,音画同步不仅是技术指标,更是“语义同步”的体现。“要做好这一点,不仅需要强大的视频模型,还需要顶尖的大语言模型和端到端语音模型支撑。”他透露,Seedance在中文及方言口型同步上已达到行业领先水平。

  与此同时,生成时长与交互能力成为新战场。百度蒸汽机在10月宣布支持“逻辑上无限生成”的长视频,并实现“实时交互编辑”——用户可在生成过程中随时打断、修改、续写。李双龙解释,这是通过将扩散模型与自回归架构融合,兼顾质量与线性成本的结果。

  快手可灵2.0则推出Multi-modal Visual Language(MVL)交互框架,允许用户结合图像、视频片段、文字甚至声音输入,实现多维度创意表达。

  如果说2025年年初,视频大模型更多被视为一种“玩具”,那么随着技术持续迭代,越来越多的行业开始将其深度应用于实际场景。例如在电商领域,值得买科技CTO王云峰对记者指出,电商商家已经普遍在使用AI生成的短视频投流内容,视频模型支持从脚本、分镜到成片的全流程自动化,“而且部分AI生成的视频在投流效果方面已经超越人工制作水平”。

  尽管如此,技术挑战依然存在。在复杂场景(如多人互动、精细物理交互)中,模型仍易出现人物形象漂移、动作畸变或流体不自然等问题。詹墨磊直言:“目前的AI视频生成技术好比一个聪明但是不细心或者经验不够丰富的助手,最典型的例子是流体动力学问题。虽然Sora2和Runway Gen-4.5都声称改进了液体模拟,但实际生成的水花、油溅、烟雾还是带有‘人工合成’的痕迹,不够自然。”

  技术的成熟直接推动了用户增长。截至2025年7月27日,可灵AI已在全球拥有超过4500万创作者,累计生成超2亿个视频和4亿张图片,服务超过2万家企业客户。

  随着技术的进步,AI生成的视频内容正从“奢侈品”逐渐转化为“日用品”。“随着基础设施价格的定价趋于成熟,ComfyUI(AI绘图工具)、Diffusers(专注于提供预训练的扩散模型)等开源工具链逐渐完善,创作者可将AI无缝集成到After Effects(影视后期特效软件)中,使得工具链和视频生成技术融合到达一定的发展阶段,商业化落地也得到了进一步发展。”

  快手财报显示,可灵AI在2025年前三季度累计营收超7亿元,全年预计达10亿元,成为国内首个披露明确收入规模的视频生成产品。其中,Prosumer(专业创作者)订阅贡献近70%收入,客户涵盖自媒体、广告营销从业者等兼具传播力与付费能力的群体。

  然而,可灵AI的收入增速正在放缓。数据显示,可灵AI在2025年第一季度和第二季度的收入分别为1.5亿元、2.5亿元,第三季度在3亿元以上,但按全年目标推算,第四季度预计仅完成约3亿元,环比持平,同比增速明显回落。这一变化与下半年的行业竞争加剧密切相关。一个“卷”字可以直观反映出国内视频生成赛道的激烈竞争态势。

  2025年7月,百度正式入局,推出蒸汽机大模型,并采取“基础版限时免费+分层付费”策略。陈一凡坦言:“如果成本过高,用户很难接受。我们希望让更多人用起来。”此举显然直接冲击现有付费模式。此前,多数模型仅提供少量免费积分,深度使用需订阅。而百度将免费入口嵌入搜索与广告后台,形成“需求—生成—分发—反馈”闭环,迅速拉动调用量。

  面对竞争,谭待则显得较为从容:“竞争本身并不关键。假设对手用户增长了三倍或五倍,但如果2026年整个市场能增长十倍呢?”

  2026年趋势展望

  展望2026年,视频生成大模型行业将从高速增长转向高质量发展,技术创新、场景深耕与商业模式升级将呈现新的趋势特征。

  行业的共识是,通用模型难以满足高要求场景,专业化微调将成为主流。詹墨磊指出,电商、教育、医疗仿真等领域存在明确需求,但需通过RAG(检索增强生成)注入行业知识库,打造“开箱即用”的专业模型。百度已在短剧、动漫广告等场景快速迭代运镜语言模型;快手则通过API向电商、广告主开放虚拟试穿、批量渲染等模块。

  此外,“实时生成”将成为技术竞争新高地。百度蒸汽机团队已规划将音视频一体化能力扩展至长视频,并支持多人对话;火山引擎也在研发Draft功能,以降低样片制作成本。谭待强调:“to B商业应用必须‘真的有用’,而非‘玩一玩’。”这意味着低延迟、高一致性、可中断编辑的实时工作流将成为企业采购的关键考量。

  从技术突破到商业探索,2025年的视频生成大模型行业呈现出高速发展与理性回归并存的特征。厂商们既在技术上不断突破边界,又在商业上寻求可持续模式。

  陈一凡将视频生成的发展类比于通讯技术演进:“我觉得视频大模型有点类似于通讯行业的进展,现阶段基本是从2G往3G时代走,就是基本实现了可生成。再往下就是实时互动,一定是从‘可生成’走向‘可实时互动’。”

  2026年,随着视频生成大模型在实时交互技术的成熟和行业解决方案的落地,视频生成大模型有望在更多领域展现其价值,推动整个行业向更加成熟、理性的方向发展。

  招银国际在研报中预计,到2027年,全球创意应用市场规模有望达到546亿美元,其中AI创意应用渗透率有望达到11%。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500