中证报中证网讯(王珞)11月18日,昆仑万维发布Skywork R1V4-Lite,一款集成视觉操作、推理与规划的轻量级多模态智能体。不仅能进行深度推理,还在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。
公司介绍,与传统只能“看图回答”的模型不同,Skywork R1V4-Lite能够在真实场景中随手拍照即可完成复杂任务:自动旋转图像判断空间位置、多次放大读取模糊文字、绘制辅助线验证几何关系、跨模态搜索定位真实地点等,这些过去只有在大型模型或专用Agent系统中才能实现的能力,如今在轻量多模态智能体Skywork R1V4-Lite中即可完成。
这意味着用户不需要设计提示词,不需要提供额外信息,只需拍一张图,Skywork R1V4-Lite就能自己观察、操作、推理并给出答案。从感知到行动,从推理到验证,Skywork R1V4-Lite让“即时多模态洞察”成为现实,为多模态智能体从封闭推理迈向开放式交互提供了新的技术路径。
随手拍解题即时理解的主动视觉操作
Skywork R1V4-Lite在推理过程中并非被动“看图回答”,而是具备主动式图像操作能力:在遇到视角受限或信息不足的场景时,模型会自动执行裁切(Crop)、放大(Zoom)、旋转(Rotate)、区域定位等操作,构建一条透明且可回溯的“视觉行动链”。
多模态深度研究领先的轻量级搜索增强能力
Skywork R1V4-Lite也支持接入联网搜索功能,在联网搜索下会自动触发深度研究能力:通过构建推理脚手架,与外部世界进行搜索、检索、比对等主动交互。触发搜索、检索、比对等多种外部资源交互,将搜索结果与视觉推理深度融合,形成“搜索—推理—验证”的闭环。模型由此获得跨模态、跨资源的知识扩展能力,推理边界显著拉宽。
R1V4-Lite不仅在学术、法律、生态与医学场景中展现出强大的多模态深度推理能力,在电商智能与内容理解方面同样表现卓越。r1v4-lite在复杂的图片输入下,找到了商品来源并给出了详细的商品介绍。这种能力可直接应用于智能导购、图搜找同款、跨平台商品比价等典型电商场景。
看图即可规划主动式多模态任务规划
R1V4-planner-lite可以支持真正意义上的主动式多模态Agentic规划,首次让视觉输入能够直接驱动任务链规划,将推理链扩展为可执行链。
模型首次从传统的“看图回答”到“看图行动”,具备了由视觉驱动的行动规划能力。在此基础上,R1V4-Planner-Lite将规划能力扩展到系统级(system-level planning):模型会综合用户意图、上下文、可用工具与任务依赖关系(dependency graph),自动生成结构化的执行方案,并以高度可解释的形式给出每一步的工具、参数与目的。这为Agentic智能提供了可控性、透明度和稳定性。
昆仑万维表示,R1V4-Lite的成功不仅来自工程优化,更源自其背后的多模态新范式:图像操作与深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力,展示了轻量多模态智能体的全新可能性。这一结果进一步说明:能力密度比参数规模更重要,小模型也能逼近闭源模型的真实表现。随着更大容量与更强结构进一步加入该范式,其scaling潜力将持续释放。目前,Skywork R1V4-Pro也即将准备发布。
未来,昆仑万维旗下Skywork将沿着“Multimodal Reasoning×Agentic Intelligence×Tool Augmentation”路线继续前进,让模型不仅理解世界,还能更有效地与世界信息交互,并在真实任务中产生实际价值。