• 最近访问:
发表于 2025-11-18 20:00:08 东方财富Android版 发布于 北京
奥比中光视觉先锋$奥比中光-UW(SH688322)$
发表于 2025-11-18 17:02:19 发布于 上海

  最近在2025世界机器人大会上,宇树科技创始人王兴兴的一番“暴论”引发了行业震动。他直言不讳地指出:当前被寄予厚望的VLA(视觉-语言-动作)模型,可能根本不是具身智能的未来,反而正在成为技术发展的绊脚石。这番言论像一盆冷水,浇醒了人们对“端到端大模型+机器人”的盲目乐观。VLA架构看似能打通感知与行动,但在真实世界中却频频“翻车”,其背后暴露的是数据依赖、泛化能力差和现实迁移难三大硬伤。

  VLA的理想与现实落差

  VLA模型的目标很宏大——让机器人像人一样看懂环境、听懂指令并做出合理动作。理论上,它可以通过海量数据训练出强大的泛化能力,比如完成“把水递给穿蓝衬衫的人”这种复杂任务。但理想很丰满,现实很骨感。实验数据显示,这类任务在真实场景中的成功率还不到30%,即便机器人能在失败后尝试调整策略,也恰恰说明它的“理解”只是表面模式匹配,而非真正认知。更关键的是,一旦环境光照、物体位置或任务逻辑稍有变化,模型性能就会断崖式下滑。这揭示了一个本质问题:VLA依赖大数据驱动的端到端学习,却缺乏对物理世界的深层理解能力

  三大核心瓶颈:数据、泛化与落地鸿沟

  首先,VLA极度依赖高质量多模态数据,但真机采集成本高、效率低,仿真数据又难以跨越Sim2Real鸿沟。业内对此分歧明显:“仿真派”认为合成数据足够,“真机派”则坚持没有真实交互数据就无法突破瓶颈。而王兴兴更进一步:就算数据再多,VLA架构本身就有缺陷,无法解决根本的泛化问题。其次,当前VLA的泛化能力远不如人类,几乎做不到“举一反三”,面对新物体或新场景往往束手无策,需要重新训练。他形容这阶段的模型状态,就像GPT出现前两三年的语言模型,尚未迎来智能涌现。最后,从实验室到现实世界,机器人要应对动态环境、物理干扰和不确定性,而VLA这种“输入-输出”的固定流程,缺乏常识推理和适应性决策机制,导致执行失败频发

  未来方向:或许VLA并非终点

  王兴兴的观点其实不只是批评VLA,更是提醒整个行业反思技术路径。他认为人形机器人的硬件已经基本够用,真正的短板是AI大脑不够聪明。与其继续堆数据训练笨重的VLA模型,不如探索新方向。他个人更看好视频生成模型——先让AI生成动作视频作为“思维预演”,再指导实体执行,尽管目前GPU消耗太大;同时,谷歌的Genie 3这类世界模型也被视为潜在替代方案,能模拟物理规律并生成多样化行为。长远来看,具身智能可能需要走向“统一模型+低成本硬件+分布式算力”的新范式,而VLA的困境警示我们:如果只靠数据喂养而不追求模型本质突破,最终只会陷入“数据越多,机器人越傻”的怪圈

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500