近日,字节跳动正式推出新一代AI视频生成模型Seedance 2.0,迅速在海内外技术圈与创作者社区引发热议。该模型由字节跳动公司研发,目前已集成于其旗下AI创作平台“即梦”,面向专业用户开放使用。
据悉,该模型采用双分支扩散变换器架构,可同时生成视频和音频,用户仅需输入详细文本提示或上传一张图片,就能在60秒内获得带有原生音频的多镜头序列视频。
Seedance 2.0的核心能力在于实现了“多镜头叙事”与“音画同步生成”的原生支持,能够根据一段文本提示或多种模态的参考素材,自动生成具备连贯剧情、统一角色形象与氛围的多场景视频序列,并同步输出匹配的对话、音效与配乐,显著降低了制作完整叙事视频的门槛。
在技术实现上,Seedance 2.0采用了双分支扩散变换器架构,使其能够同时处理视觉与听觉信号,而非将音频作为后期添加项,从而实现了角色口型与语音的高度同步,以及声音环境与场景材质的物理匹配。为了增强创作的可控性,模型支持用户上传最多12个参考素材,包括图片、视频片段和音频,用以精确锚定人物外貌、动作姿态、运镜风格乃至特定的光影效果。
这种“多模态参考”机制,使得创作者能够对生成结果进行像素级的引导,有效缓解了以往AI生成内容随机性过强、难以精准控制的痛点。此外,模型对物理世界规律的理解也得到加强,生成的大幅度运动和复杂动作更加流畅自然,减少了逻辑断裂与形变失真。
官方信息显示,Seedance2.0生成2K视频的速度比快手旗下可灵模型快30%,不同AI视频模型各有侧重方向,Sora侧重于物理真实感,可灵侧重于运动控制,Seedance2.0则专注于制作带有原生音频的连贯多场景序列视频。
东方证券研报提到,随着各家最新AI视频模型发布,国内视频生成领域的技术边界进一步拓宽,赛道进入类似2025年大语言模型的竞争状态,在基础能力均达到较高水准的前提下,后续各家的差异化发展或体现在具体落地场景方面。
中银证券则认为,Seedance2.0等AI技术或推动漫剧行业进入规模化发展阶段。传统动漫往往需数年打磨,资金投入动辄千万元,漫剧“短视频化”的轻量化产品制作周期较短,且创作门槛大幅降低,行业有望迎来加速发展。