视频大模型从“玩具”走向生产力工具_百度(usbidu)股吧

股吧首页 > 百度吧 > 正文

最近访问：

百度吧

返回百度吧>>

- 重要股东股权质押数据全览

百度资讯

发表于 2026-01-03 03:43:39 股吧网页版

视频大模型从“玩具”走向生产力工具

来源：中国经营网作者：李静

　　过亿条的视频正在被AI大模型生成。2025年，视频生成大模型在技术飞速进步与商业化探索中，正经历着从“玩具”向“生产力工具”的关键转型。

　　“如果成本下不来，用户基本不会用。我们希望让更多人能够用起来。”百度副总裁陈一凡在谈及蒸汽机大模型的免费策略时曾如此表示。2025年下半年，百度通过推出限时免费的Turbo版本正式进军视频生成领域，犹如一条鲇鱼搅动了原本平静的市场。

　　2025年，中美视频生成大模型双轨竞争格局基本成型：OpenAI发布Sora2并巧妙融入社交功能，引发全球用户创作热潮；与此同时，国内快手的可灵、百度的蒸汽机、字节跳动的Seedance等产品在2025年密集迭代，行业在技术可控性、多模态融合与商业落地方面取得显著进展。

　　站在2025年年末回望，这一年既是视频生成大模型的技术突破年，也是市场竞争白热化的一年。展望2026年，行业或将迎来从“能生成”向“好生成、快生成、可交互生成”的深度演进。

　　技术跃迁

　　2025年，视频生成大模型厂家相继推出多个版本，技术焦点从“能否生成”转向“如何更好地生成”。

　　在国内厂商中，快手可灵AI自2024年6月发布以来，在一年半时间内已完成超30次迭代升级，平均每半个月就有一次优化。阿里巴巴的通义万相视频大模型在2025年完成5次重要迭代，其12月推出的2.6版本新增了角色扮演与分镜控制功能。字节跳动在2025年年末发布的Seedance1.5 pro，则重点优化了音视频生成效率与泛化能力。

　　华创证券在研报中指出，从模型层看，2025年多款主流模型视频生成效果朝着画面更高清、时长更长、物理更拟真等多方位进步；主体跨帧一致性、复杂语义理解等长期难题得到缓解。

　　Omdia高级首席分析师詹墨磊对记者指出，2025年视频生成大模型行业实现了两大关键技术突破：一是对物理规律的理解增强，如国外的Sora2和Runway Gen-4.5能模拟物体重量、碰撞反弹、液体流动与布料飘动；二是音画同步能力成熟，如阿里WAN、火山引擎Seedance1.5 Pro、百度蒸汽机模型，均支持端到端生成带口型匹配的语音视频，无须后期配音。

　　百度蒸汽机团队在2025年10月展示了实时交互与长视频生成能力。百度商业研发首席架构师李双龙透露道：“团队将窗口期的扩散生成转变为回归流式的扩展生成，解决了长视频生成的技术瓶颈。”

　　火山引擎总裁谭待在接受《中国经营报》记者采访时特别强调，音画同步不仅是技术指标，更是“语义同步”的体现。“要做好这一点，不仅需要强大的视频模型，还需要顶尖的大语言模型和端到端语音模型支撑。”他透露，Seedance在中文及方言口型同步上已达到行业领先水平。

　　与此同时，生成时长与交互能力成为新战场。百度蒸汽机在10月宣布支持“逻辑上无限生成”的长视频，并实现“实时交互编辑”——用户可在生成过程中随时打断、修改、续写。李双龙解释，这是通过将扩散模型与自回归架构融合，兼顾质量与线性成本的结果。

　　快手可灵2.0则推出Multi-modal Visual Language（MVL）交互框架，允许用户结合图像、视频片段、文字甚至声音输入，实现多维度创意表达。

　　如果说2025年年初，视频大模型更多被视为一种“玩具”，那么随着技术持续迭代，越来越多的行业开始将其深度应用于实际场景。例如在电商领域，值得买科技CTO王云峰对记者指出，电商商家已经普遍在使用AI生成的短视频投流内容，视频模型支持从脚本、分镜到成片的全流程自动化，“而且部分AI生成的视频在投流效果方面已经超越人工制作水平”。

　　尽管如此，技术挑战依然存在。在复杂场景（如多人互动、精细物理交互）中，模型仍易出现人物形象漂移、动作畸变或流体不自然等问题。詹墨磊直言：“目前的AI视频生成技术好比一个聪明但是不细心或者经验不够丰富的助手，最典型的例子是流体动力学问题。虽然Sora2和Runway Gen-4.5都声称改进了液体模拟，但实际生成的水花、油溅、烟雾还是带有‘人工合成’的痕迹，不够自然。”

　　技术的成熟直接推动了用户增长。截至2025年7月27日，可灵AI已在全球拥有超过4500万创作者，累计生成超2亿个视频和4亿张图片，服务超过2万家企业客户。

　　随着技术的进步，AI生成的视频内容正从“奢侈品”逐渐转化为“日用品”。“随着基础设施价格的定价趋于成熟，ComfyUI（AI绘图工具）、Diffusers（专注于提供预训练的扩散模型）等开源工具链逐渐完善，创作者可将AI无缝集成到After Effects（影视后期特效软件）中，使得工具链和视频生成技术融合到达一定的发展阶段，商业化落地也得到了进一步发展。”

　　快手财报显示，可灵AI在2025年前三季度累计营收超7亿元，全年预计达10亿元，成为国内首个披露明确收入规模的视频生成产品。其中，Prosumer（专业创作者）订阅贡献近70%收入，客户涵盖自媒体、广告营销从业者等兼具传播力与付费能力的群体。

　　然而，可灵AI的收入增速正在放缓。数据显示，可灵AI在2025年第一季度和第二季度的收入分别为1.5亿元、2.5亿元，第三季度在3亿元以上，但按全年目标推算，第四季度预计仅完成约3亿元，环比持平，同比增速明显回落。这一变化与下半年的行业竞争加剧密切相关。一个“卷”字可以直观反映出国内视频生成赛道的激烈竞争态势。

　　2025年7月，百度正式入局，推出蒸汽机大模型，并采取“基础版限时免费+分层付费”策略。陈一凡坦言：“如果成本过高，用户很难接受。我们希望让更多人用起来。”此举显然直接冲击现有付费模式。此前，多数模型仅提供少量免费积分，深度使用需订阅。而百度将免费入口嵌入搜索与广告后台，形成“需求—生成—分发—反馈”闭环，迅速拉动调用量。

　　面对竞争，谭待则显得较为从容：“竞争本身并不关键。假设对手用户增长了三倍或五倍，但如果2026年整个市场能增长十倍呢？”

　　2026年趋势展望

　　展望2026年，视频生成大模型行业将从高速增长转向高质量发展，技术创新、场景深耕与商业模式升级将呈现新的趋势特征。

　　行业的共识是，通用模型难以满足高要求场景，专业化微调将成为主流。詹墨磊指出，电商、教育、医疗仿真等领域存在明确需求，但需通过RAG（检索增强生成）注入行业知识库，打造“开箱即用”的专业模型。百度已在短剧、动漫广告等场景快速迭代运镜语言模型；快手则通过API向电商、广告主开放虚拟试穿、批量渲染等模块。

　　此外，“实时生成”将成为技术竞争新高地。百度蒸汽机团队已规划将音视频一体化能力扩展至长视频，并支持多人对话；火山引擎也在研发Draft功能，以降低样片制作成本。谭待强调：“to B商业应用必须‘真的有用’，而非‘玩一玩’。”这意味着低延迟、高一致性、可中断编辑的实时工作流将成为企业采购的关键考量。

　　从技术突破到商业探索，2025年的视频生成大模型行业呈现出高速发展与理性回归并存的特征。厂商们既在技术上不断突破边界，又在商业上寻求可持续模式。

　　陈一凡将视频生成的发展类比于通讯技术演进：“我觉得视频大模型有点类似于通讯行业的进展，现阶段基本是从2G往3G时代走，就是基本实现了可生成。再往下就是实时互动，一定是从‘可生成’走向‘可实时互动’。”

　　2026年，随着视频生成大模型在实时交互技术的成熟和行业解决方案的落地，视频生成大模型有望在更多领域展现其价值，推动整个行业向更加成熟、理性的方向发展。

　　招银国际在研报中预计，到2027年，全球创意应用市场规模有望达到546亿美元，其中AI创意应用渗透率有望达到11%。

（文章来源：中国经营网） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》