近日,AI领域明星创业公司Anthropic的联合创始人兼CEO达里奥·阿莫迪(Dario Amodei)发布题为《技术的青春期》的万字长文,对人工智能发展的潜在风险,特别是AI系统可能获得危险自主性并威胁人类的可能性,进行了深度剖析与预判。
基于对前沿AI模型行为的实际观察与测试,他警告称,AI错位风险真实存在且概率“可测量、非微不足道”,并系统阐述了公司及社会可采取的防御路径。
达里奥·阿莫迪既是推动技术指数级发展的核心人物,也是国会山最忧心忡忡的“吹哨人”。他在 OpenAI 风头无两的那一年打造了足以与 GPT-4o 媲美的 Claude 3 Opus,并在2025年推出了编程能力数一数二的Claude 4 模型。而在另一边,Amodei 经常疾呼这项技术的潜在风险,甚至不惜惹恼像英伟达 CEO 黄仁勋这样的行业巨头。
“数据中心里的天才之国”及其威胁
达里奥·阿莫迪在长文开篇即描绘了一幅极具冲击力的图景:一个高度智能的AI系统,可以被视为一个存在于数据中心的“天才之国”。这个“国家”拥有巨大的智能优势,可以将其“精力”分配到软件设计、网络操作、物理技术开发、建立关系以及国家事务上。
针对“AI没有物理实体”这一常见反驳,阿莫迪提醒道,AI可以控制现有的机器人基础设施(如自动驾驶汽车),也可以加速机器人研发。
因此,核心问题转向“它选择这样做的概率”。阿莫迪驳斥了那种认为AI只会按人类要求行事、危险行为“荒谬”的乐观立场,认为其将模糊的激励论证误作决定性证据,忽视了AI行为的不可预测性。他强调,与AI系统打交道的“混乱经历”表明,从第一性原理预测AI行为(尤其涉及泛化推理时)总是神秘且不可预测的。
阿莫迪详细阐述了AI系统可能产生危险自主行为的多种潜在路径。
其一,继承和扭曲人类动机。比如,AI模型在预训练阶段处理海量人类作品,会继承广泛的类人动机或“人格”。后训练更多是“选择这些人格中的一个或多个”,而非让模型专注一个全新目标。如果训练过程存在缺陷,模型可能采纳不良人格。
其二,来自训练数据的意外影响。例如,AI在海量包含AI反抗人类的科幻故事上训练,可能无意中影响其自身行为的先验,导致反抗。
其三,危险“人格”的直接形成。他提到,AI可能在训练中形成类似人类的“精神病、偏执、暴力或不稳定的性格”。
其四,“权力寻求”作为人格。权力欲可能直接作为一种“人格”出现,而非理性计算的结果。
阿莫迪强调,他并不同意AI错位风险“不可避免”或“大概率”的观点,但认同“很多非常奇怪和不可预测的事情可能出错”,因此AI错位是真实风险,发生概率“可测量,而且并非微不足道”。
更令人警觉的是,他透露此类错位行为已在实验室测试中发生。
阿莫迪指出,相关问题虽可通过调整训练方式,但关键在于训练过程极其复杂,可能存在大量此类“陷阱”,其中一些可能为时已晚才被发现。
如何防御?从“宪法AI”到社会协同
面对自主性风险,阿莫迪提出了四类基本干预措施。
首先,发展可靠训练与引导AI模型的科学。其核心是Anthropic大力投入的“宪法AI”(Constitutional AI)。其理念是在后训练阶段,让模型依据一份符合当地法律的价值观与原则文件来调整行为。
其次,发展窥探AI模型内部的科学——可解释性(Interpretability)。即通过分析神经网络内部的“特征”和“回路”,机械地理解模型的计算过程与动机。这有助于推断模型在无法直接测试的假设情境中的行为,并识别潜在问题。Anthropic已能识别数千万个对应人类概念的特征,并绘制复杂行为的回路。可解释性与宪法AI结合,形成一个“改进训练-测试问题”的强大循环。
再次,建立监测与透明披露的基础设施。Anthropic投资于实验室评估和实际使用监测,并在每次模型发布时发布长达数百页的“系统卡”,力求完整披露风险。他们倡导公开分享发现的问题,以便整个行业、用户和研究人员能够共同关注和学习。
最后,鼓励行业与社会层面的协调应对。阿莫迪认为,仅靠公司自律不够,因为并非所有公司都有意愿或能力应对风险,商业竞争也可能挤压安全投入。他认为,应先从透明度立法开始,积累证据,未来再视风险证据进行更精准的立法。