随着人工智能领域的关注重心从大语言模型转向具身智能,智源研究院于11月20日举办的开放日上,正式发布了其最新的技术进展与生态规划。
智源指出,当前具身智能仍处于“可演示却难规模化”的阶段:尽管机器人硬件快速迭代成熟,但模型存在“三不”瓶颈——不好用、不通用、不易用,不同本体间缺乏统一接口,动作规划与控制迁移困难,部署成本居高不下。
为破解这些结构性问题,智源展示了一套自底向上的通用技术体系:以“具身大脑”为核心,将数据采集、标准化工具链、模型基座、仿真与评测整合为统一架构,并通过开源开放机制持续迭代。目前,其具身领域合作伙伴已超30家,规模仍在扩大。
模型层面,新一代RoboBrain 2.0 Pro通过价值判断与三维空间追踪能力,增强机器人在复杂场景中的动作推理稳健性。基于此,RoboBrain-X0 Pro实现零样本跨本体迁移与长程多步骤操作,面向灵巧手的RoboBrain-Dex则通过大规模人类示范预训练,显著降低灵巧操作的数据门槛。在基础控制领域,智源推出贯通仿真与真机的Emu-RobotVerse,以及为人形机器人打造的全身控制框架BAAI Thor,为强交互任务中的稳定性提供底层支撑。此外,还发布了响应延迟约80毫秒的全双工语音大模型RoboBrain-Audio,以及聚焦长期记忆与社会认知的RoboBrain-Memory。
技术路线讨论中,圆桌对话围绕端到端VLA、分层式模型及世界模型三条路径展开辩论。行业共识认为,短期内分层架构更适合工程落地,而通用基座模型将是长期目标,其实现依赖统一场景表示、高质量数据闭环及一致评测体系。针对“硬件是否拖累模型”的争议,行业认为,模型规划与硬件执行已进入互相重塑阶段,尤其在力控、人形结构设计及安全边界等方面,双方需共同定义标准。
数据来源成为行业关注焦点。智源院长王仲远在接受界面新闻等媒体采访时指出,机器人世界与语言模型不同,短期内难以出现类似互联网文本的海量真机数据——即使部署千台甚至万台机器人,也远不足以支撑通用模型规模。“几十万小时数据仍不能称海量,远未到ChatGPT时刻。”他表示,智源遵循“第一性原理”,以视频为主输入:视频具备可规模化采集优势,包含时空因果、语义、图像、动作、声音及三维线索,是最接近人类学习路径的数据;少量真实操作记录提供因果反馈,通过强化学习修正策略,以补全视频模态在触觉与力控上的局限——目前行业整体缺乏足够规模力反馈数据,但认可其未来重要性。
融资加速涌入的原因,王仲远认为是共识驱动:资本、政策与产业圈普遍相信具身智能将成为下一条长周期技术曲线(类似大模型产业化)。由于研发需持续投入算力、硬件及场景验证,高额融资成入场门槛,但他也指出资本存在焦虑——商业化路径尚未跑通,技术路线未收敛,行业或经历周期波动。创业公司则因商业模式不清晰或资源分散易快速迭代,王仲远强调,真正竞争力在于“打磨真实场景实现长期可用”,而非追求“万能具身”,“先活下来,熬过寒冬,才能迎来具身智能的未来。”
来源:界面新闻
#沪指跌破3900点关口! 如何应对?##今年买基金赚了多少钱?##低估补涨号启航#