_股市实战(gssz)股吧_东方财富网股吧

股吧首页 > 股市实战吧 > 正文

最近访问：

股市实战吧

返回股市实战吧>>

- 重要股东股权质押数据全览

阳光97607

发表于 2025-11-18 10:14:41 东方财富iPhone版发布于广东

技术从从容容，股价连滚带爬

◆

昆仑万维资讯

发表于 2025-11-18 10:12:30

[昆仑万维吧] 昆仑万维正式发布Skywork R1V4-Lite，多模态智能体迈向开放式交互时代

来源：中国网科技

　　昆仑万维正式发布Skywork R1V4-Lite，多模态智能体迈向开放式交互时代

　　11月18日，昆仑万维正式发布Skywork R1V4-Lite，一款集成视觉操作、推理与规划的轻量级多模态智能体。它不仅能进行深度推理，还在同一模型中统一了主动图像操作、外部工具调用、多模态深度研究三大能力。

　　与传统只能“看图回答”的模型不同，Skywork R1V4-Lite能够在真实场景中随手拍照即可完成复杂任务：自动旋转图像判断空间位置、多次放大读取模糊文字、绘制辅助线验证几何关系、跨模态搜索定位真实地点……这些过去只有在大型模型或专用Agent系统中才能实现的能力，如今在轻量多模态智能体Skywork R1V4-Lite中即可完成。

　　这意味着用户不需要设计提示词，不需要提供额外信息，只需拍一张图，Skywork R1V4-Lite就能自己观察、操作、推理并给出答案。从感知到行动，从推理到验证，Skywork R1V4-Lite让“即时多模态洞察”成为现实，为多模态智能体从封闭推理迈向开放式交互提供了新的技术路径。

　　在多个权威视觉与感知基准上，Skywork R1V4-Lite展现出超过预期的竞争力：在8个多模态理解基准评测上整体领先Gemini 2.5 Flash，其中5个任务上超过Gemini 2.5 Pro的水平。

　　这证实了“图像操作 ×深度推理”训练范式的有效性，并展现出极强的scaling潜力：即便是小模型，也能逼近顶级闭源模型的表现。

　　01核心优势一：随手拍解题，即时理解的主动视觉操作

　　Skywork R1V4-Lite在推理过程中并非被动“看图回答”，而是具备主动式图像操作能力：在遇到视角受限或信息不足的场景时，模型会自动执行裁切(Crop)、放大(Zoom)、旋转(Rotate)、区域定位等操作，构建一条透明且可回溯的“视觉行动链”。

　　R1V4-Lite展现出物理逻辑理解力：它先对图像进行几何校正，再基于正确视角进行空间关系推理。

　　当任务要求极高精度时，R1V4-Lite会进一步主动进行微观级操作：放大区域、生成参考线、构建辅助判断策略。对于需要“精密判断”的任务，模型不会直接给答案，而是会先构建辅助工具来确保结果严谨可靠。

　　在需要主动式图像操作能力的任务中，模型会主动进行多步裁剪放大的图像操作，找到对应的图片区域，使推理结果具备可解释性与严谨性。这一过程完整展示了R1V4-Lite的视觉行动力：模型不再“被动看图”，而是在复杂场景中主动探索、验证、修正与整合，实现真正意义上的“边观察、边思考、边行动”。

　　02核心优势二：多模态深度研究，领先的轻量级搜索增强能力

　　Skywork R1V4-Lite也支持接入联网搜索功能，在联网搜索下会自动触发深度研究能力：

　　通过构建推理脚手架，与外部世界进行搜索、检索、比对等主动交互。触发搜索、检索、比对等多种外部资源交互，将搜索结果与视觉推理深度融合，形成“搜索—推理—验证”的闭环。模型由此获得跨模态、跨资源的知识扩展能力，推理边界显著拉宽。

　　从结果上看，R1V4-Lite在多模态DeepResearch类任务中展现出了领先趋势：在mm-search上以66分超过Gemini 2.5 Flash的64.9分，在FVQA上以67分显著领先Gemini 2.5 Flash的60.8分。这一系列结果强有力地验证了“图像操作 ×深度推理交织训练”范式的有效性。

　　面对复杂问题，R1V4-Lite能够进行多轮推理与信息整合。

　　R1V4-Lite 不仅在学术、法律、生态与医学场景中展现出强大的多模态深度推理能力，在电商智能与内容理解方面同样表现卓越。 r1v4-lite在复杂的图片输入下，找到了商品来源并给出了详细的商品介绍。这种能力可直接应用于智能导购、图搜找同款、跨平台商品比价等典型电商场景。

　　03核心优势三：看图即可规划，主动式多模态任务规划

　　R1V4-planner-lite可以支持真正意义上的主动式多模态 Agentic 规划，首次让视觉输入能够直接驱动任务链规划，将推理链扩展为可执行链。

　　从一张图像出发，Planner能够自动构建一条可执行的多轮任务链(task chain)，并完成：

　　任务分解(Task Decomposition)

　　工具选择(Tool Selection)

　　参数生成(Parameter Generation)

　　执行顺序规划(Execution Ordering)

　　这意味着模型首次从传统的 “看图回答” → “看图行动”，具备了由视觉驱动的行动规划能力。

　　在此基础上，R1V4-Planner-Lite将规划能力扩展到系统级(system-level planning)：模型会综合用户意图、上下文、可用工具与任务依赖关系(dependency graph)，自动生成结构化的执行方案，并以高度可解释的形式给出每一步的工具、参数与目的。这为Agentic智能提供了可控性、透明度和稳定性。

　　Skywork R1V4-Lite并非传统意义上的“小模型”。它是业界首个在轻量级架构下同时实现：图像操作(Crop / Zoom / Rotate)、深度推理(Long-form Reasoning)和任务规划(Agentic Planning)三能力统一的多模态智能体。

　　在极小参数规模下，Skywork R1V4-Lite依然能进行端到端的深度思考与主动执行，实现从 “视觉输入” 一直推到 “任务完成” 的完整能力链。

　　04核心优势四：小尺寸、快响应、低成本

　　Skywork R1V4-Lite在模型规模、推理速度与吞吐效率之间实现了极佳工程平衡。这意味着它不仅适合工程落地，也能支撑极高的并发和实时性要求，是移动端、应用内推理和高 QPS 产品的更优选项。

　　通过更高效的模型优化与继承Qwen3 A3B轻量架构设计，它在真实生产环境中展现出远超同体量模型的性能表现：

　　1. 响应速度(Latency)

　　- 约为Gemini 2.5 Pro的1/19

　　- 约为Gemini 2.5 Flash的1/5

　　2. Token 吞吐(TPS)

　　- 为Gemini 2.5 Pro/Flash的约2倍

　　3. 端到端完成速度：依托更强的推理压缩能力与极低的工具调用轮次，在工具调用与长推理任务(端到端使用工具)，R1V4-Lite实现了：

　　- 比Gemini 2.5 Pro快2.9× - 比Gemini 2.5 Flash快1.7×

　　凭借低延迟×高吞吐×极低成本的组合优势，R1V4-Lite完美适用于：

　　实时问答

　　视觉检索

　　智能助手

　　多模态工具调用

　　高并发的在线生产场景

　　R1V4-Lite的发布证明了——小模型也能很强，小模型也能很快，小模型也能多模态。

　　05展望

　　R1V4-Lite的成功不仅来自工程优化，更源自其背后的多模态新范式：图像操作×深度推理交织训练。这一训练路线让轻量模型具备跨模态推理、主动图像操作、任务规划与搜索增强的统一能力，展示了轻量多模态智能体的全新可能性。

　　这一结果进一步说明：能力密度比参数规模更重要，小模型也能逼近闭源模型的真实表现。随着更大容量与更强结构进一步加入该范式，其scaling潜力将持续释放。目前，Skywork R1V4-Pro也即将准备发布。

　　未来，昆仑万维旗下Skywork将沿着 “Multimodal Reasoning×Agentic Intelligence×Tool Augmentation” 路线继续前进，让模型不仅理解世界，还能更有效地与世界信息交互，并在真实任务产生实际价值。

（文章来源：中国网科技） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

温馨提示： 1.根据《证券法》规定，禁止编造、传播虚假信息或者误导性信息，扰乱证券市场；2.用户在本社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》