• 最近访问:
发表于 2025-05-08 16:39:40 股吧网页版
李想再谈AI:人工智能成为生产工具才会迎来真正爆发
来源:新华财经


K图 LI_0


K图 02015_0

  新华财经北京5月8日电(康耕甫) 近日,在理想汽车推出的《理想AI Talk第二季》中,公司董事长兼CEO李想分享了自己对于人工智能的最新思考,VLA司机大模型的作用、训练方法和挑战等。他认为,判断Agent(智能体)是否真正智能,关键在于它是否成为生产工具。只有当人工智能变成生产工具,才是其真正爆发的时刻。

  李想将AI工具分为三个层级,分别是信息工具、辅助工具和生产工具。目前,大多数人将AI作为信息工具使用,但信息工具常伴随大量无效信息、无效结果和无效结论,仅具参考价值。成为辅助工具后,AI可以提升效率,例如现在的辅助驾驶,但仍需人类参与。未来,AI发展为生产工具后,将能独立完成专业任务,显著提升效率与质量。

  VLA的实现是进化的过程

  目前的L2、L2+组合驾驶辅助仍属于辅助工具阶段,而VLA(Vision-Language-Action Model,视觉语言行动模型)能够让AI真正成为司机,成为交通领域的专业生产工具。

  VLA的实现不是一个突变的过程,是进化的过程,经历了三个阶段,对应了理想汽车辅助驾驶的三个阶段。第一阶段,理想汽车自2021年起自研依赖规则算法和高精地图的辅助驾驶,类似“昆虫动物智能”。第二阶段,理想汽车自2023年起研究,并于2024年正式推送的端到端+VLM(Vision Language Model,视觉语言模型)辅助驾驶,接近“哺乳动物智能”。

  端到端模型在处理复杂问题时存在局限,虽可借助VLM视觉语言模型辅助,但VLM使用开源模型,使其在交通领域的能力有限。同时端到端模型也难以与人类沟通。为了解决这些问题并提升用户的智能体验,理想汽车自2024年起开展VLA研究,并在多项顶级学术会议上发表论文,夯实了理论基础。

  在端到端的基础上,到第三阶段,VLA将开启“人类智能”的阶段。它能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(Chain of Thought,思维链)推理能力,既能看,也能理解并真正执行行动,符合人类的运作方式。

  VLA训练过程对齐人类价值观

  VLA的训练分为预训练、后训练和强化训练三个环节,类似于人类学习驾驶技能的过程。预训练相当于人类学习物理世界和交通领域的常识,通过大量高清2D和3D Vision(视觉)数据、交通相关的Language(语言)语料,以及与物理世界相关的VL(Vision-Language,视觉和语言)联合数据,训练出云端的VL基座模型,并通过蒸馏转化为在车端高效运行的端侧模型。

  后训练相当于人类去驾校学习开车的过程。随着Action(动作)数据的加入——即对周围环境和自车驾驶行为的编码,VL基座变为VLA司机大模型。得益于短链条的CoT,以及Diffusion扩散模型对于他车轨迹和环境的预测,VLA具备实时性的特点,实现了在复杂交通环境中的博弈能力。

  强化训练类似于人类在社会中实际开车练习,目标是让VLA司机大模型更加安全、舒适,对齐人类价值观,甚至超越人类驾驶水平。强化训练包含两部分:一是通过RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)完成安全对齐,使模型遵守交通规则,贴合中国用户的驾驶习惯;二是将纯强化学习模型放入世界模型中训练,提升舒适性,避免碰撞事故,遵守交通规则。经过预训练、后训练和强化训练后,VLA司机大模型即可部署至车端运行。

  VLA司机大模型以“司机Agent(智能体)”的产品形态呈现,用户可通过自然语言与司机Agent沟通,跟人类司机怎么说,就跟司机Agent怎么说。简单通用的短指令由端侧的VLA直接处理,复杂指令则先由云端的VL基座模型解析,再交由VLA处理。

  还需解决安全性和模型黑盒难题

  除了提升专业能力,VLA司机大模型还需解决安全性和模型黑盒的问题。

  模型能力越强,越需要职业性约束,以确保能力下限。为了保障VLA司机大模型能够实现职业司机般的安全和舒适,避免学习加塞等违规行为,理想汽车在强化训练环节投入大量资源,并于2024年底组建超过100人的超级对齐团队,相当于为司机Agent注入职业素养。

  为解决模型的黑盒问题,理想汽车结合重建和生成两种路径,打造了真实、符合物理世界规律的世界模型,覆盖所有交通参与者和要素。基于世界模型的仿真能力,VLA可以在世界模型中低成本、准确地验证现实问题,提升解决问题的效率,有效应对模型黑盒带来的挑战。

  判断司机Agent是否是个好司机,有三个关键标准:专业能力、职业能力和构建信任的能力。VLA司机大模型提升了专业能力,超级对齐增强了职业能力,VLA通过理解自然语言、具备记忆能力提升了构建信任的能力。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500