人工智能数据安全、算法偏见、模型幻觉、情感依赖、数据污染等问题尚未得到有效解决。
2月2日,中国人工智能产业发展联盟安全治理委员会年度总结会议在北京举行。会上,大模型与智能体面临的哪些安全风险,以及未来如何实现AI的安全治理,成为与会人员讨论的重要议题。
百度大模型安全产品总监李志伟表示,内容合规依旧是大模型的生命线,围绕提示词的各类安全攻击目前是各大模型服务面临的最大挑战。
挑战首先是不当内容生成,大模型可能生成违规内容、表达偏见立场或产生不恰当语言,导致合规风险和声誉损害。其二是越权引导,通过精心设计的提示词,诱导模型越过安全边界,绕过安全限制回答敏感问题或提供受限信息。随着模型能力增强,此类攻击手段不断演进。其三是训练数据与生成内容的合规风险,模型训练数据可能包含版权、隐私和知识产权问题,生成内容涉及法律责任归属模糊,在使用过程中存在各类合规挑战。其四是输出不可控、不稳定、不可解释,模型回答存在随机性和不确定性,相同问题可能产生不一致结果,回答逻辑难以解释,预测和控制能力有限,给安全防护带来挑战。其五是多模态融合输入风险,多模态模型处理图片、音频、视频等多种输入时,跨模态安全边界不一致,导致单一模态防护被绕过,产生安全盲区。最后是过度推理与算力消耗风险,引导模型执行过度的计算和推理过程,触发资源密集型处理,导致服务响应延迟、成本爆炸和系统资源耗尽等风险。
中国信息通信研究院(下称“中国信通院”)近期发布的《人工智能安全治理研究报告(2025年)——推进人工智能安全治理产业实践框架》(下称《报告》)称,人工智能技术在2025年持续快速迭代创新,多项突破性进展正推动其能力边界不断扩展。基础模型推理能力显著增强,通过构建统一的跨模态表征空间,实现图像、语音和文本等多模态应用。同时,智能体打通“感知、决策、行动”闭环,使模型从“语言生成器”向“任务执行者”转变。具身智能驱动机器人实现高阶认知与自主学习。最后,人工智能与基础科学深度融合,在生物化学、医药研发等科研领域取得重大进展,驱动科研范式变革。然而,人工智能数据安全、算法偏见、模型幻觉、情感依赖、数据污染等问题尚未得到有效解决,同时在技术深入赋能过程中被不断放大。人工智能安全治理相关问题已经成为阻碍技术红利释放的掣肘。
中国信通院人工智能研究所安全治理部副主任呼娜英认为,人工智能技术的黑箱属性、应用的不确定性和产业链条的多样性越发凸显,给人工智能模型研发、系统部署、应用运行等不同组织主体以及同时拥有多重身份的组织主体带来管理挑战。人工智能风险的精准防控并非单一企业能独立完成,而是需要全产业协同推进的系统性工程。当前行业在核心治理环节普遍存在共建合力不足的问题,统一标准尚未形成、协同机制仍需完善。
在我国AI产业(包括基础模型、智能体和AI+产业应用)提速发展的同时,监管层面围绕AI安全治理体系的构建也在提速。
2025年8月,国务院发布《关于深入实施“人工智能+”行动的意见》,指出要提升安全能力水平。推动模型算法、数据资源、基础设施、应用系统等安全能力建设,防范模型的黑箱、幻觉、算法歧视等带来的风险,加强前瞻评估和监测处置,推动人工智能应用合规、透明、可信赖。建立健全人工智能技术监测、风险预警、应急响应体系,强化政府引导、行业自律,坚持包容审慎、分类分级,加快形成动态敏捷、多元协同的人工智能治理格局。
同年8月,工业和信息化部等部门联合发布《人工智能科技伦理管理服务办法(试行)(公开征求意见稿)》,强化人工智能领域科技伦理风险防范,促进负责任地创新。12月,国家互联网信息办公室公布《人工智能拟人化互动服务管理暂行办法(征求意见稿)》,首次针对“AI陪伴”类服务提出系统性规范。
腾讯研究院高级研究员曹建峰表示,在AI能力实现飞跃的同时,大众对AI的理解有所滞后。“我们正在部署越来越强大的AI系统,却对其内部运作机制知之甚少。”大模型伦理和安全四大核心议题,分别是可解释性与透明度,即如何“看清”AI的决策过程;价值对齐,即如何确保AI与人类价值保持一致;安全治理框架,即如何安全负责任地迭代前沿模型;以及AI意识与福祉,即AI是否值得道德考量。
曹建峰还认为,AI可解释性实践还在襁褓阶段且处于快速发展中,应鼓励行业自律和“向上竞争”。AI模型安全治理的未来,可以是通过可解释性、价值对齐、安全治理政策等安全护栏和干预措施,让AI“心中有数”并遵从人类价值,也让人类对AI“心中有底”,共同开创人机协作的新局面,打造一个“智能为人、不落下每一个人”的未来。