本报讯 (记者李乔宇)4月21日,昆仑万维科技股份有限公司(以下简称“昆仑万维”)SkyReels团队正式发布并开源SkyReels-V2——全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,其通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(ReinforcementLearning)和扩散强迫(Diffusion-forcing)框架实现协同优化。
SkyReels-V2不仅在技术上实现了突破,还提供了多种有用的应用场景,包括故事生成、图生视频、运镜专家和多主体一致性视频生成(SkyReels-A2)。
SkyReels-V2现已支持生成30秒、40秒的视频,且具备生成高运动质量、高一致性、高保真视频的能力。
SkyReels-V2不仅在技术上实现了突破,还为多个实际应用场景提供了强大的支持。第一,SkyReels-V2能够生成理论上无限时长的视频,通过滑动窗口方法,模型在生成新帧时会参考之前生成的帧和文本提示。这种方法不仅支持时间上的扩展,还能生成具有连贯叙事的长镜头视频;第二,SkyReels-V2提供了两种图像到视频(I2V)的生成方法;第三,SkyReels-V2在标注摄像机运动方面表现出色;第四,基于SkyReels-V2基座模型,昆仑万维研发了SkyReels-A2方案,并提出了一种新的多元素到视频(E2V)任务,能够将任意视觉元素(如人物、物体和背景)组合成由文本提示引导的连贯视频,同时确保对每个元素的参考图像的高保真度。这一功能适合短剧、音乐视频和虚拟电商内容创作等应用。
作为首个商业级E2V开源模型,SkyReels-A2在E2V评估Benchmark A2-Bench中的结果表明,其一致性和质量维度上评估与闭源模型相当。未来,昆仑万维计划扩展框架以支持更多输入模态,如音频和动作,旨在构建一个统一的视频生成系统,以支持更广泛的应用。