不久前,中国工程院外籍院士、清华大学智能产业研究院创始院长张亚勤教授在“人文清华”讲坛上发表演讲,展望AI时代的技术趋势、新一代智能体与未来路径。以下是演讲主要内容。
1945年,二战刚刚结束,时任美国总统罗斯福在一个深冬的晚上收到了一份提案,名为《科学:无尽的前沿》。这份提案后来成为法案,一举奠定了美国在科学领域的领军地位,催生了众多技术、产品和产业,直接推动了第三次工业革命——我们熟知的无线通信、半导体、互联网、光纤通信等都是源于这份科学法案。
而今天,我们正迎来一个全新的重大机遇——人工智能,它已然拉开了第四次工业革命的序幕。所以,我今天的演讲题目是《人工智能:无尽的前沿》。
『人工智能的发展脉络』
什么是人工智能?它本质上是计算机学习人类智能的过程。人工智能这一概念于1956年正式定义,而它的理论奠基可追溯到更早。英国科学家图灵率先定义了“计算”与“智能”,并提出了“图灵测试”——若机器能通过多轮对话,让人类无法分辨其是否为人类,就意味着通过了测试。
还有两位人工智能的重要奠基人:“信息论之父”香农定义了比特和信息量(熵),“控制论之父”维纳定义了负反馈、学习和自适应,这些基础概念对人工智能的发展起到了至关重要的作用。
这么多年来,人工智能领域出现了很多不同的学派,但主要包括两种思路。一种思路认为,可以把大脑的逻辑、规则、推理的过程用符号表示出来,这就是符号学派。基于这种方式,该逻辑体系非常简洁,也有明确的因果关系,但它的缺点是不实用,在实际应用中效果不佳。另一个学派叫连接学派,该学派认为,大脑如此复杂,智能的实现十分困难,所以要通过大量的数据,通过积累经验、持续学习、不断适应以及与世界的连接来获取智能。最近10—20年主流的深度学习技术,采用的就是这种思路。
人工智能发展史上有几个关键事件值得关注:
2016年,AlphaGo第一次以3:1的比分击败了李世石九段。AlphaGo采用深度学习、强化学习的方法,学习了人类几十万盘围棋棋局,取得了了不起的成果。2020年,基于类似算法,DeepMind(谷歌旗下的人工智能公司)推出的AlphaFold解决了困扰人类长达50年之久的生物学难题——“蛋白质折叠问题”。
2024年,诺贝尔物理学奖、化学奖均授予了人工智能领域的奠基人,其中就包括DeepMind的创始人德米斯·哈萨比斯——他的团队既创造了AlphaGo,也打造了AlphaFold。
另一个里程碑事件,是2022年OpenAI(美国人工智能研究公司)推出了ChatGPT。过去的深度学习或者神经元网络,主要是针对具体任务,比如语音识别、人脸识别、图像识别或者字符识别,本质上是一种高级的识别技术。但ChatGPT带来了一种全新的范式,它不仅可以识别,还可以生成和创造,所以生成式AI就诞生了。
生成式AI有三个重要的元素:统一表征、规模定律和涌现效应。我认为其中最重要的是统一表征。ChatGPT是怎么做的呢?我们人类的大脑有860亿个神经元,每个神经元的结构都是完全一样的。生成式AI的统一表征也是类似的原理,不管什么样的信号进来,都把它变成Token(最小文本处理单元),其核心任务就是预测下一个Token,生成下一个Token。它可以生成文字、图像、视频,还可以生成新的数据、代码、数学方程式、工具。当大语言模型的参数量突破百亿级别,便会触发规模定律,出现涌现效应。也就是说,模型的性能并非线性增长,而是随着规模扩大发生跃迁,从而涌现出未经编程的、令人惊喜的新能力。
来自中国的DeepSeek同样也是一个重要的里程碑。在DeepSeek出现之前,中国有上百个大模型,它们基本上都在学习模仿ChatGPT。当时,我们和美国在大模型领域的差距大概是两到三年。DeepSeek是一家小型的创业公司,DeepSeek在算法、技术、系统架构上都有所创新,它用1%的算力就能达到和美国前沿大模型相似的能力。DeepSeek出现后,中国和美国在大模型领域的差距缩短至2—3个月。另外,DeepSeek采用开源模式,它很快被那些买不起大模型的国家、地区所使用,这使得整个模型的落地和应用变得越来越快。
所以,一开始有“ChatGPT时刻”,后来又有了“DeepSeek时刻”,那是属于中国的骄傲。
『从生成式AI到智能体AI』
2025年,人工智能领域迎来了又一重要转变——从生成式AI迈向智能体AI。
在此之前,人工智能遵循规模定律:数据越多、算力越强,模型效果越好,达到一定阶段后会出现量子跃迁和涌现效应。但到了2025年,我们发现,预训练阶段的规模效应正在放缓,数据资源逐渐趋于饱和,继续增加算力的边际收益不断减少。与之相对,后训练阶段的重要性日益凸显。这就像人类的成长过程:预训练如同上学阶段,从本科到硕士、博士,通过学习积累知识变得聪明;后训练则像是工作后的实践,在具体场景中不断学习、进化,这也是智能体AI的核心来源。
什么是智能体?人类作为高智能物种,能够设定任务和目标、规划实现路径、不断试错反馈,凭借强大的记忆完成任务。这是我们人类的核心特点。而AI智能体,就是在学习人类的这种高级智能,它具备三大关键特点:
第一,它是自主的。也就是说,它能自主学习,而不是自动学习,这两者差别很大。自主学习没有固定的规则,是在不断地探索中学习;而自动学习往往是有预设规则的,是按照定义好的规则来运行的。
第二,它是可进化的。就是通过不断迭代可以变得更好,而且进化之后,下一次再做类似的事情,可以把原来学到的知识用上。这是人类和别的物种之间很大的区别——人类的智能是可以叠加的,而黑猩猩的智能一代和一代之间并没有本质区别。
第三,它是泛化的。也就是能够举一反三。比如,学会了怎么在网上订票,类似的功能就可以用到很多别的地方。
这些智能的实现,离不开最基本的数据,所以,我们的技术底座就是数字化。首先是信息世界的数字化,然后是物理世界的数字化、生物世界的数字化。
过去40年,我们最重要的工作就是数字化。早期从1985年起开展内容数字化、文档数字化的工作,语音、图像、视频、文本、PPT等都成为数字化内容。后来,又对企业进行数字化、信息化管理,包括各种各样的业务流程。这一阶段催生了两个成果,一个是数据库,另一个是云计算。现在,整个物理世界都在经历数字化的变革:汽车、公路、交通信号灯在数字化,电网在数字化,家庭在数字化,工厂在数字化,城市在数字化……同时,生物世界的蛋白质、大脑、细胞、基因等也都在数字化。
麻省理工学院媒体实验室创始人尼古拉斯·尼葛洛庞帝曾在数字化1.0开启时提出,我们正在从“原子”走向“比特”。比特是香农所定义的数字世界的基本单位。而如今,我们正从比特回归原子、分子——新一代智能是信息智能、物理智能和生物智能的融合,是比特、原子和分子的融合,也是碳基生命和硅基世界的融合。
『智能体AI的多元应用』
2020年12月,我来到清华大学创立了智能产业研究院。我们的使命非常明确:用人工智能创新赋能产业,推动社会进步;目标是打造面向第四次工业革命的国际化、智能化、产业化研究机构。下面我结合智能产业研究院老师们的研究成果,为大家介绍智能体的具体应用。
李鹏老师团队与清华大学丘成桐数学科学中心合作,研发了数学智能体AIM。它能够分解任务,完成定理证明。在材料科学、分子动力学领域的重要难题“均匀化问题”的证明中,AIM形成了17页的证明文档,一部分完全由机器生成,一部分经人工校正,但最难的部分是由AI完成的。其核心意义在于,AI已具备了证明难题、提出新问题、生成新方程式的潜力。
无人驾驶技术毫无疑问是智能体的另一重要应用,也是我多年来持续关注的课题。百度旗下的“萝卜快跑”就是一款专门用于驾驶的机器人。经过近10年的研发,无人驾驶L4级(完全无人、无安全员)的核心技术已取得突破,长尾问题不断优化。目前,“萝卜快跑”已累计行驶2亿公里,在国内外十几个城市落地运营,比人开车安全10倍,未发生过一次恶性事故。我们已经在中国打造了全球最大的无人驾驶平台和运营体系。我预计到2030年,10%的新车将具备L4级无人驾驶功能。
人工智能在生物智能领域的应用,最主要体现在新药研发的加速上。智能产业研究院聂再清老师团队打造的新药研发智能体,能够根据研发需求分解任务,自动查找资料、分析蛋白质结构和功能,生成初步研发图谱,极大提升了新药研发的效率,为科研人员提供了重要支持。
在医疗领域的另一个突破是刘洋老师团队打造的全球首个无人智能体医院——清华大学人工智能医院(2025年4月成立)。这是一个虚拟医院,医生、病人、护士等角色均由智能体担任,涵盖不同科室,形成完整诊疗闭环。智能体之间通过协作、博弈不断进化,无需人工标注数据,仅需两天时间就能完成相当于两年的病例诊断学习,诊断准确率超过传统医院。
需要指出的是,AI智能体医生并非要替代人类医生,而是作为医生的助手,提升诊断效率和准确性。目前,该系统已在清华大学校医院、长庚医院等十几家医疗机构开展测试,由真实医生和病人参与验证。
『人工智能时代的“操作系统”』
下面我想讲一下未来技术的发展趋势,特别是产业格局的变化。
我在微软公司工作近16年,其间主持开发了全球最大的嵌入式操作系统WindowsCE,所以我对操作系统有特殊的情结。操作系统,它是定义一个时代最重要的技术平台,有了操作系统后,芯片、应用程序以及整个技术生态都是围绕着操作系统来部署的。
在PC时代,操作系统是Windows(视窗操作系统)。到了移动互联网时代,手机的操作系统是iOS和安卓,在国内我们也用华为的鸿蒙系统。到了人工智能时代,操作系统就是大模型。人工智能时代的架构图,将是以前沿基座大模型为操作系统,上层涵盖行业垂直系统、软件运营服务,端侧(手机、PC)则通过大模型蒸馏或压缩后的小模型运行App。虽然短期内手机App仍是主流,但智能体功能将逐步融入其中。
智能体是实现通用人工智能(AGI)的必然路径。目前通用人工智能的定义尚未统一,我对其的理解是:具有可进化、可泛化和长期记忆的智能体,在执行99%的任务上超过99%的人类。如果按照这样的定义,我认为有望在15—20年内达到通用人工智能的水平。
『人工智能的风险与治理』
还有一件非常重要的事情,那就是人工智能在带来巨大机遇和强大功能的同时,也伴随着不可忽视的风险。
风险有以下几个层面:首先是信息智能领域的风险。我们已经看到,AI可以生成虚假信息,可以进行深度伪造,有时候它还会产生幻觉,另外还有版权归属的问题。现在网上有很多AI生成的虚假信息,这些虚假信息又被用来训练新的大模型,然后生成更多的不实信息,形成恶性循环。我们该怎么防范这些风险呢?需要从技术、政策、法规等各方面来共同解决这些问题。
其次是来自物理世界和生物世界的风险。大模型、智能体与无人驾驶汽车、机器人、无人机、军事系统等连接起来,如果出现失控,被恶意滥用,那么所造成的风险将是无法估量的。此外,如果大脑和AI连接在一起,碳基生命和硅基世界通过芯片或者外挂的传感器连接在一起,我们可以想象,一旦失控,风险也是特别巨大的。所以,这就需要我们提前去研究这些问题、解决这些问题、面对这些挑战。我对此是充满信心的,因为人类可以发明高级的工具,我们也一定可以管理好高级的工具。
总而言之,当前,人工智能正从鉴别式AI走向生成式AI,并逐步迈向智能体AI。在这一进程中,我们拥有天文级的海量数据、指数级的运算能力,更重要的是人与机器将协同进化,催生巨大的产业机遇。达沃斯AI理事会预测,到2030年,人工智能带来的新机遇将创造20万亿美元的经济价值,超过当前许多国家的GDP总量。同时,我们也面临着隐私保护、安全保障、就业转型、社会公平、风险治理等一系列社会挑战,人工智能将重构全球社会、经济版图。
80多年前,《科学:无尽的前沿》法案推动了第三次工业革命。在前三次工业革命中,中国始终是旁观者或跟随者,而人工智能带来了新的无尽的前沿,正在开启第四次工业革命。这一次,我坚信,凭借强大的国力、众多的人才和有利的政策,中国必将成为第四次工业革命的领军者!