要说IROS Day 1谁最炸——美团当仁不让
一手2025美团机器人研究院学术年会,展厅直接被围到到水泄不通。
毕竟,一整个机器人圈的技术天团都来了:
美团副总裁毛一年、港大席宁教授、禾赛创始人李一帆、自变量机器人CEO王潜、宇树创始人、CEO王兴兴、星海图联创许华哲、清华丁文伯教授、浙大许超教授、清华赵明国教授……
这些大咖不光人到了,主题演讲也是亮点连连、金句频出:
毛一年展示了美团无人机高空送汉堡、机场闪送“小黄蜂”等最新进展。
李一帆重磅发声:机器人是中国近20年最好的机会!
王潜则直接抛出:具身智能不是把DeepSeek塞进宇树机器人里——具身智能不是 AI 应用,而是基础模型。
圆桌环节同样火花四射:围绕机器人的第一性原理,王兴兴与许华哲现场过招,当前的机器人软硬件到底谁在拖后腿?
接下来,让我们一起深入看看本次年会的更多精彩内容。
机致生活-Robotics for Better Life
几乎所有在做具身智能的团队,如今都在强调一个共识:不要拿着锤子找钉子。
技术不是目的,而是工具。要回到场景,解决实际问题,让技术真正成为生产力。
而谈到“场景”,放眼整个行业,大概没有谁比美团更懂。
更重要的是,在美团的战略体系中,“场景”与“科技”的关系早就被想得非常透。
美团副总裁、机器人研究院理事长毛一年在年会上表示:过去几年,美团的战略已从“零售”升级为“零售 + 科技”。
两者的关系很清晰——零售是场景,科技是赋能。
科技的作用,是让我们的场景变得更大、更好,让服务更高效、更优质。
不同领域做机器人,本质上都是为了服务人类、服务更好的生活。
而在未来5到10年,具身智能正是这一切的核心技术范式。
美团的关键词是autonomy(无人化)——让技术驱动零售行业变革。
无人机能送汉堡、披萨,无人配送车能从北京跑到深圳,风雨无阻,而机场、酒店、园区场景中,小黄蜂也在承担闪购配送任务。
值得一提的是,美团还是全国唯一获得民航局许可在全国所有城市合法飞行的无人机,而且在晚上也能飞。
从低空到地面,从城市到社区,美团正在构建一个真正的“具身智能网络”。
这也是今年年会主题——“机致生活 Robotics for Better Life” 的最好注脚。
可以说,只有当低空经济基础设施建设与真实零售场景深度结合,具身智能才能发挥出它的全部潜能。
最后,美团也不忘“秀肌肉”——在具身智能投资与产业化落地的赛道上,美团依然稳坐第一梯队。

Model-base和learning-base的对抗生成
港大席宁教授的分享则直接从软应用带向了硬科技,他的题目是《人工智能时代的机器人感知、规划与控制》。

其中,颇具启发性的是GAT 模型(Generative Adversarial Transduction)。
简单来说,就是让机器学习模型和解析模型彼此纠错、循环迭代:
机器学习负责处理复杂的感知数据,解析模型则基于物理规律来“守门”,保证稳定与可解释性。
两者相互转导,让机器人既能“学得深”,又不会“飘太远”。
这也是他口中具身智能应有的形态——既非纯数据驱动,也非传统模型驱动,而是二者的生成性博弈。
更具前瞻性的是他的非向量空间控制(Non-vector Space Control)理论。
在传统控制中,我们处理的是位置、速度这样的“向量”变量。
而在AI时代,感知空间早已不止向量——图像、点云、触觉,这些都构成机器的“感知维度”。
席宁提出要在感知空间中直接控制,这意味着机器人未来的行动不再依赖精确的轨迹规划,而是从视觉、听觉中直接“感”出下一步。
此外,他还提出了感知控制(Perceptive Control)的理论框架——不同于传统的“规划-控制”串行链路,感知信息可以实时介入控制指令,让机器人在复杂环境中实现真正的“Planning and control in perceptive frame”。
也就是说:机器人不只是看清世界,而是从看中学会行动。
在底层理论部分,席宁教授还用香农采样定理抛出了一个极具挑战的问题:
“我们能否在采样不足时仍然有效控制?”他以压缩感知为例,讨论如何在低采样率下重构信息,为机器人在算力受限、数据不完备的场景中仍保持稳定控制提供了思路。
最后,他展示了人形机器人控制的最新尝试:
当机器人失衡或遇到突发状况时,它不再死守原计划,而是学会“执行Plan B”,像人类一样快速重置策略、重新站稳——
这正是“具身智能”真正落地的样子:机器学会感知、决策、再行动。
汽车到机器人的变与不变
与美团强调场景落地不同,李一帆提出了禾赛的路线:专注基础设施,撑起整个行业。
他说,真正能支撑行业发展的,不是追着“金子”跑的人,而是那些在挖“矿”的——基础设施建设者。
基础设施技术(Infra Tech)之所以关键,是因为它能解决创业和发展中的根本性风险和不确定性:
许多人以为挖金子方向会变化,但如果开发的是基础设施,就能保持稳定和可控的组织目标。
真正“挖金子”的团队容易目标频繁变动,导致组织文化和执行力受影响。
做基础设施的人更容易形成有战斗力的团队,因为他们目标明确、收入和规模清晰。

除了战略思路,李一帆还分享了硬件开发的不可能三角:质量、性能、成本。
质量为先:先保证产品可靠,让用户放心使用
性能其次:在可靠的基础上探索技术边界,提升性能
成本最后:在前两步完成后,实现规模化普及,控制成本
在具体的降本方面,他指出:硬件成本大部分来自电子料,关键不是压榨供应商,而是自己掌握关键部件并优化设计。
以禾赛为例,自2017年起,他们逐年将核心技术自研化,每年投入数亿元,确保产品性能与成本可控。
此外,他对汽车与机器人的对比,也揭示了未来的创业机会:
汽车:数据丰富、二维环境、硬件成熟,软硬件可部分解耦
机器人:自主交互、三维环境、硬件不成熟,数据稀缺,软硬件不可解耦
这意味着,创业者可以先把硬件打磨好,再以数据和AI为切入点,构建行业基础设施。
在软硬不解耦的环境下,中国创业者凭借强大的供应链和制造能力,有望快速抢占市场。
李一帆表示:这个有可能是未来20年我们看到的最好的机会。
自变量王潜:构建物理世界的基础模型
与前几位分享者不同,王潜一上来就提出了几个大家忽视的命题:具身智能是什么?
具身智能不是把deepseek塞到宇树机器人里,而且具身智能也不是AI应用,而是基础模型。
这个基础模型和大语言模型完全不一样。
现有的语言模型、多模态模型固然强大,但它们都扎根于虚拟世界,对物理世界的理解与操作能力仍然非常有限。
他强调:“我们今天所做的,是一个平行于虚拟世界的物理世界基础模型,它完全独立于现有的语言和多模态模型。”
物理世界充满随机性和不可预测性:推动一个杯子,同样的角度、力度,结果可能每次都不同;
抓取一个物体,看似简单的抓握,实际上涉及摩擦、可变形物体和部分可观测的复杂状态。
传统的语言模型和静态数据集无法应对这些挑战。
他进一步强调,机器人需要主动感知、交互式操作等能力,这些在虚拟世界或传统模型中根本无法实现。
因此,物理世界的基础模型不仅需要端到端的训练方法,还需要统一模型来应对多样任务——从动作生成到视觉理解、语言交互再到三维环境重建。
在谈到模型训练时,王潜提出了一个核心观点:
数据为中心,而非单纯增加数据量。他指出,现实世界数据的多样性和高质量,远比大量低质量的模拟数据更能推动模型性能提升。
比如在机器人导航和动作操作中,高质量的真实数据往往比仿真数据更高效、更经济。
他总结道:“单纯增加数据量、建数据工厂,没有太大意义。关键是提高数据的质量和效率,这才是实现通用人工智能的核心。”
此外,相比大家偏爱的专才模型,王潜则对通才模型更情有独钟。
他认为,通才模型是未来通用机器人的核心。
因为通才模型可以通过学习物理规律、物体属性和交互模式,模型后续能够以极少的数据实现新任务的快速适应,这正是few-shot learning与in-context learning出现的基础。
最后,他指出:真正的人工智能基点,不是单纯的智能基点,而是物理基点——来源于物理世界的算力、能源和数据,才能推动通用人工智能甚至超级人工智能进入下一个时代。
具身智能落地:从第一性原理到理想形态
在圆桌环节,丁文伯、王兴兴、许超、许华哲和赵明国展开了一场跨越哲学、工程、科幻与未来想象的深度对谈。
他们来自不同的领域——有的从算法出发,有的深耕硬件,有的关注智能系统的整体架构,也有的直接以科幻的方式想象机器人的终极形态。
但他们共同的问题是:什么才是具身智能的第一性原理?软硬件该如何共生?数据与模型谁是更真实的驱动力?而未来机器人的理想形态是什么样的?

Q1:探索具身智能发展的“第一性原理”
在谈到“具身智能的第一性原理”时,几位嘉宾从不同角度进行了思考。
王兴兴表示:很多商品都可以按成本与重量来算,这是一个非常直观的第一性原理。但目前就智能来说,关于第一性的认知还没有收敛。
比如数据压缩是比较流行的认识,但他认为这并不是终极的构想,目前还是缺乏像牛顿力学那样的基本规律体系。未来可能需要在核心原理与工程实践之间,找到新的平衡与连接方式。
许超则从控制论与物理学的角度回应了这一点。他将“具身智能”比作“身体与灵魂的合一”:
机器人原本是力量和精度的象征,但它的脑子还不够。补脑,就是人工智能的任务。
他提出了一个启发性概念——“牛顿加辛顿”模型:牛顿代表物理世界的第一性原理,辛顿代表神经网络的学习与优化能力。
未来智能系统的关键,是让这两者“握手”——既保留物理规律的约束,又借助神经网络实现适应与学习。
许华哲从更哲学的角度提出了他的“三原论”——欲望、先验与经验。
他指出,人类与动物的智能,源自最根本的欲望:
最基本的欲望就是活下去——不被伤害,探索未知,扩大自己的边界。
但现有机器学习系统只有拟合,没有欲望。因此,他提出一个激进问题:能否让机器人拥有自己的欲望?
接着是先验:“为什么马生下来几分钟就能走路,而机器狗要训练几十年的等价时间?”在他看来,DNA携带了高效的经验,而神经网络缺乏这种先天知识。
预训练(pre-train)模型是一条路,但还需要探索更像“遗传机制”的高效经验移植方式。
最后是经验:他讲到一个生活细节——修煤气灶的师傅能在扭曲姿势中保持平衡、精确操作,这是人类身体经验与智能的结合。
只有用你自己的身体产生的数据,才能让你的智能体在现实世界中真正奏效。
因此,智能的闭环应由欲望(目标驱动)—先验(内在结构)—经验(现实反馈)共同组成。
赵明国则表示——具身智能真的需要自己的第一性原理。
所有的东西最终都是物理的。那具身智能的第一性原理,应该也是一个足够简单、能从根上解释清楚它与其他智能不同之处的原理。
他认为,具身智能必须是一个独立的概念体系,不能只是大语言模型(LLM)的应用延伸。
如果只是把具身智能看作大模型的一个应用,那它就不是独立的智能。
他强调,当前很多做法只是“把控制系统换成智能算法”,形式变了,本质没变。
真正的突破要来自重构智能系统本身的结构逻辑,而不仅仅是替换中间算法。
于是他提出了一个新的视角——“3 + 1 模式”。
在他看来,一个智能系统至少包含三大部分:
感知世界(传感):把外部物理信号转化为信息
处理与推理:在信息空间中进行计算、决策
作用于世界(驱动执行):把信息结果重新变为物理能量
“+1”部分则是这三者之间的信息和能量流动机制,也就是系统真正的“生命力”
赵明国提醒:如果我们只盯着信息处理这一个环节,而忽视了传感与驱动的革新,那所谓的“具身智能”就仍然停留在头脑里,还没有真正“长出身体”。
Q2:站在软件的角度,需要硬件做什么?站在硬件的角度,需要软件做什么?
在第二个问题中,主持人抛出了一个“battle”——软件与硬件,谁该跟上谁的节奏?
许华哲从算法端发起“挑战”:硬件别太脆,别太热,别太容易坏。
他希望硬件能与软件共同进化,像生物系统一样协同进化。理想状态下,AI算法的反馈能直接反作用于机器人结构的改进,实现软硬件的共迭代。
王兴兴则代表硬件方回应:AI越强,硬件要求反而越低。
他举例说,过去非AI算法对硬件一致性要求极高,但AI算法能适应更多物理偏差。
不过在当下——AI 还不够强,因此对硬件的稳定性、灵活度要求仍然非常高。
“虽然我们做硬件的希望大家对硬件要求高一点,但现实是AI越强,它越不依赖完美的硬件。”
这一轮“互怼”显然充满火药味,但也道出了核心矛盾:硬件的精密与算法的弹性,如何在同一具身系统中找到平衡?
赵明国则中和了两位的表述,他认为软硬件的关系其实是一种螺旋式的迭代。
当软件发展到一定阶段,硬件必然需要升级来承载新的算法与概念。
而硬件的突破,又会反过来促使软件范式的更新。表面上看是“硬件升级”,但本质上往往是“软件逻辑”的跃迁。
因此,未来的关键不在于“软件先行”还是“硬件先行”,而在于能否真正实现软硬一体的融合设计,不同的迭代阶段对软件有不同的需求和侧重。
Q3:具身智能究竟是model-base还是data driven
当谈到“数据驱动 vs 模型驱动”时,几位嘉宾的讨论颇有火花。
赵明国首先指出,model-based的方式,意味着人要先“想明白”再总结出理论,用理论去指导实践。它的优势是可解释、可控,但覆盖面有限。
而data-driven则不同——它的覆盖面可能更广,甚至有机会在数据积累到临界点后,催生出新的理论。
但赵明国也提醒:“别以为数据没理论。”真正有价值的是“好数据”,而不是“多数据”。数据的背后仍然有分布、有概率、有结构——它依然需要理论的支撑。
未来也许不是理论被淘汰,而是理论在数据中被重新生长出来。
进一步指出,当一个系统的复杂度高到超出人类认知时,我们就不得不依赖数据,让神经网络去“拟合”现实的分布规律。这其实是一种认知上的必然。
许华哲补充了一个生动的观察——“现在做机器人研究的学生,用脚投票:几年前大家还在讲 model-based,今年几乎全都想做VLA(data- driven)。”
他笑称,这是因为数据驱动带来的成果更“可见”——模型再优雅,也敌不过能跑起来的结果。
而当机器能自己“挖数据矿”,实现数据采集与训练的闭环,那才是智能真正自动化的开始。
最后,许超从控制论的角度收束了讨论。他说,人工智能其实有一个“家谱”:爸爸是自动化,妈妈是计算机,叔叔是数学。
他指出,无论是数据还是模型、软件还是硬件,本质上都要“合二为一”地去解决真实问题。
不管白猫黑猫,先抓住耗子。模型也好,数据也好,能让机器人真的动起来、能解决实际问题的,才是好智能。
他还强调,纯粹依赖数据去拟合动力学系统是不现实的——
在机器人领域,流体力学、多体动力学这些物理规律仍然是底层的“秩序”,而深度学习更多是把未知部分补齐。两者结合,才可能让具身智能真正具备稳健性。
Q4:理想的具身智能机器人是什么样的?
圆桌最后一个问题是:“你心目中理想的机器人是什么样的?”
赵明国表示:“我还是会继续做机器人足球。”
对他来说,足球是机器人最完整的训练场:有运动、有协作、有对抗、有策略,是具身智能的“综合考场”。
他提到,RoboCup计划的目标是在2050年,让机器人足球队能与人类世界杯冠军对抗。
接着是许华哲的回答,就像从实验室走进了科幻世界。
“我希望机器人能有自己的好奇心。”
他说自己是个科幻迷,小时候最震撼的想法就是——如果机器人能自己造出自己呢?
他想象未来的机器人可以带着人类的好奇心、欲望与智慧去探索宇宙。
许超则希望未来的机器人能和人类完美共生。
他正在构想一个“汇聚之城”,让机器人与人类在真实空间中协同、验证、共同生活。
同时,他强调绿色智能的重要性——算力不只是更强,而是更高效、更节能。
王兴兴则将具身智能和AGI联系起来,他表示:
AGI是人类最终极的一个发明,后续的无论是生产,包括可能很多的生产消费娱乐,包括什么挖矿,包括星际探索,都可以用它来实现。
而且,这个时代是年轻人最幸运的时代:
再早几十年你没算力,再晚几十年别人都做完了。唯独我们这一代,有机会真的去定义智能。