文字指令就能“P视频” 实测快手可灵O1：视频版Nano Banana Pro来了？_快手-W(hk01024)股吧

股吧首页 > 快手-W吧 > 正文

最近访问：

快手-W吧

返回快手-W吧>>

- 重要股东股权质押数据全览

快手-W资讯

发表于 2025-12-04 23:53:00 股吧网页版

文字指令就能“P视频” 实测快手可灵O1：视频版Nano Banana Pro来了？

来源：每日经济新闻

　　一度被誉为“地表最强AI（人工智能）生图模型”的谷歌Nano Banana Pro，其引发的新一轮技术热潮尚有余温，视频生成模型“大混战”又在年末迎来高潮。

　　先是海外AI视频初创公司Runway发布了新一代视频模型Gen-4.5，并在基准测试中超越谷歌的Veo3登顶。12月1日，快手可灵AI又丢出“王炸”，上线“全球首个统一多模态视频大模型”可灵O1，再次强化了其作为“生产力工具”的一面。

　　火药味很浓。

　　一般而言，普通C端（消费者）用户想生成相对较复杂和精细的视频，往往需要使用生图模型、视频生成模型以及剪辑软件等进行制作。实际操作中，多模型、多软件的切换比较耗时且繁琐，视频效果也可能会在流转中出现主体一致性差、动作崩掉等情况，需要重新“抽卡”（需要通过反复尝试、调整提示词或参数来获得理想作品的过程）。

　　“统一多模态视频大模型”据称主要解决的就是这个问题。

　　事实上，从去年开始，视频生成领域的竞争就已进入白热化。今年，国外的Sora2、Veo3逐渐确立统治地位，国内有多轮大版本更新且商业化速度一骑绝尘的可灵不断出招。时至年末，新一轮混战来袭，谁是“地表最强视频生成模型”，我们离答案还有多远？《每日经济新闻》记者对可灵O1进行了实测。

　　支持多模态，输入文字指令就能“P视频”

　　《每日经济新闻》记者实测发现，可灵O1首次将参考生视频、文生视频、首尾帧生视频、视频内容增删及修改变换等多任务，融合于大一统模型之中。

　　最重要的是，完成上述任务可以“全流程语义控制”，用一句话就可以生成或修改视频。图片、视频、主体、文字等都可以被视为指令，可灵O1可综合理解用户上传的照片、视频或主体（一个角色的不同视角）的意图，生成视频的各种细节。

　　具体而言，记者实测发现，在可灵O1模型的多模态指令输入区，可以上传1到7张参考图或主体，自由组合人物、角色、道具、服装、场景等元素，让静态元素在视频中动起来。

　　视频生成后，也可以在输入区进行指令的变换，对原视频进行主体与背景的增加、修改、删除，也可以修改风格、颜色、材质、视角等。由于支持多模态输入，这个修改的过程可以由文字、图片、主体的输入语言任意组合。

　　比如，在输入区输入“删除【视频】中道路两侧的路人，保留马车”，修改后的视频保持了主体的一致性，对被删除的内容进行了相对干净的抹除。

　　图片来源：可灵O1测试截图

　　除了用文字指令删除、增加内容外，还可以用图片指令修改视频的主体等。比如，输入“将【视频】中的雕像修改为【图片】中的姜饼人”，生成的视频保持了原视频的运镜逻辑、背景一致，主体也按要求进行了替换。

　　图片来源：可灵O1测试截图

　　此外，可灵O1还可以改变视频的视角、景别，比如远景变特写、俯拍变仰拍等，并支持用参考视频内容进行新镜头的生成等。

　　如记者输入图片和视频两段素材，让图片中的静态主体以视频主体的舞蹈方式动起来，结果生成视频对原图片打光、色调以及主体形象的还原度相对较高，但也有一些小瑕疵，如手部细节模糊、人物身体比例不协调等，还需要重复“抽卡”。

　　视频“一致性”有所提高，指令还可叠加使用

　　体验时记者注意到，可灵O1强化了输入图像及视频的理解，支持多视角图创建主体。也就是说上传一个角色的多视角照片，其可以在不同镜头、不同光照与风格下保持“同一个人”的特征不变。

　　比如，记者输入近期大热电影《疯狂动物城》主角“朱迪”的多张不同主体视角图片，在后期进行视频生成时，无论主角、道具、场景以及运镜如何变化，朱迪的主体形象都能够保持相对稳定。

　　不过，当记者添加了狐狸尼克的图片参考并进行更复杂的视频输出时，主体之外的人物形象出现不合逻辑的动作、形态呈现，甚至有一组舞会成员随着镜头推移，从双人跳舞变成了三人跳舞，需要重复“抽卡”。

　　图片来源：可灵O1测试截图

　　此外，记者体验时还发现，不仅限于单个角色或物品，可灵O1还具备多主体融合能力。可以自由组合多个不同主体，或将主体与参考图混搭。这种能力适用于视频里呈现复杂的群像戏或互动场景中，模型能够独立锁定及保持每一个角色或道具的特征。不过，这个功能需要提供高清、主体明确的图片，否则需要重复“抽卡”。而在复杂的互动场景下，多个主体的互动指令也需要更明确地描述，不然就难以避免重复“抽卡”。

　　在实际场景落地中，如宣传视频就可以直接上传商品图、场景图等，通过多个主体相互组合快速完成视频生成。

　　图片来源：可灵O1测试截图

　　记者发现，除单点任务外，可灵O1还支持组合不同的技能，允许把各种指令叠加使用，一次性生成出来。比如，可以组合参考图片和修改视频风格，两个动作同时进行。

　　这些功能的升级，相对能够拓宽可灵的场景应用，特别是作为“生产力工具”，可应用于影视创作、创意广告、服装穿搭参考视频、视频后期制作等。

　　不过，有不少网友表示，目前可灵视频O1模型的使用价格较贵，视频生成、修改成本高。据了解，视频价格取决于输入情况和生成视频长度——无视频输入时，8灵感值/秒，有视频输入时，12灵感值/秒。以单次购买一个月的可灵黄金会员价格为例，66元/月、每月有660灵感值。如无视频输入，生成一个高品质5秒视频，大约需要40灵感值。

　　技术狂欢背后：可灵年收入即将破10亿元，C端市场待垦

　　视频、图像O1模型上新后，12月3日，可灵又官宣推出视频生成2.6模型。记者注意到，该模型提供了“音画同出”能力，升级了文生音画、图生音画两大功能。目前，语音支持生成中文与英文，生成的视频长度最长可达10秒。

　　12月4日晚，新一代可灵数字人2.0宣布即日起正式全量上线。上传角色图、添加配音内容、描述角色表现，三步即可生成。相对旧版，新版在表现力、手部及口型精准控制上有提升，且支持最长5分钟的视频时长。

　　除了在年末迎来“技术周”，前不久三季度财报披露时，可灵宣布2025年收入将达10亿元的商业化进程，再次引起不小的市场反应。

　　值得一提的是，目前可灵用户构成仍以B端客户为主。而随着Open AI正式发布的第二代AI视频生成模型Sora 2等将视频生成与社交互动深度融合，C端消费级应用的落地进程明显加快。

　　快手科技创始人兼首席执行官程一笑在三季报电话会上也指出，“当前我们的主要精力依然是面向专业创作者，但未来也会将可灵的技术能力进一步产品化，与社交互动结合，加速C端应用的商业化。”这也回答了可灵未来增长方向的问题。

　　工信部信息通信经济专家委员会委员盘和林此前接受《每日经济新闻》记者微信采访时表示，视频生成赛道的最终受益者，可能还是内容创作平台，因为这些平台具备两样东西：其一，是最相关的用户群体，未来视频生成可能更多还是为短视频自媒体服务；其二是最大规模的用户受众，生成式AI带来的内容创作上的升级，会进一步影响创作者和观看者。

　　“未来，快手平台上的创作者，需要借助可灵这样的AI工具来生成内容，或者至少辅助内容创作，这会大大提高平台内容输出的质量，从而更好地吸引用户，扩大快手在内容平台领域的影响力。”盘和林如此补充。

（文章来源：每日经济新闻） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》