“如果一只坏钟每天只有两次指向正确的时间,人们会不会逐渐忽视它的故障,甚至依赖它所提供的假象,大语言模型正如这只坏钟,它们依赖互联网海量数据训练,却常常一本正经地‘胡说八道’。”9月21日,首届青海数据要素生态大会上,浙江大学教授、博导,中国科协决策咨询首席专家,全球数字经济大会中国数据要素50人论坛主席王春晖如是表示。
当前,我国数据产业整体进入发展“快车道”,数据作为关键生产要素的价值日益凸显。依托于数据产业支持的人工智能和AI模型的更高阶进化和迭代,对高质量数据的需求尤其迫切。
高质量数据集是基石
基于当前数据产业生态以及AI大模型的训练模式,借助哲学家维特根斯坦的“坏钟寓言”为引子,王春晖指出,当前大语言模型(LLMs)存在的“幻觉”输出问题,若数据质量低下,模型输出的“幻觉”将误导认知、污染思想,而高质量数据集则是AI可信发展的基石。
据其介绍,现在,LLMs的训练数据多源自互联网,质量参差不齐,生成内容依赖“概率性匹配”,而非“事实性判断”,这导致其常出现“幻觉现象”。
为佐证这一风险,王春晖抛出一组关键数据:“研究显示,当训练数据集中仅含0.01%的虚假文本时,模型输出的有害内容会增加11.2%。”这一数据直指当前AI发展的核心痛点——高质量数据供给不足,尤其是专业领域数据的缺失,导致LLMs产生“幻觉”。
面对数据质量带来的挑战,王春晖强调了高质量数据集对AI大模型训练、推理和验证的关键作用,并详细分类了高质量数据集的类型,包括通识数据集、行业通识数据集和行业专识数据集,并指出这些数据集是支撑通用大模型和行业模型落地应用的基础。
其中,“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用。如医疗健康数据:个人属性数据、健康状况数据、医疗应用数据、医疗支付数据、卫生资源数据以及公共卫生数据等。
而“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。医疗AI离不开高质量的专家标注数据。比如医疗病理数据标注复杂耗时,必须由临床专家执行以确保准确。
作为最新发展趋势,AI与数据的融合发展,将逐步从以模型为中心到以数据为中心。不过,王春晖指出,以数据为中心的人工智能并未削弱以模型为中心的人工智能的价值,而是两种范式在构建AI系统时相互补充交织。
AI时代的“提问艺术”
“人类最高级的智慧,是向自己或别人提问——苏格拉底的这句话,在AI时代有了新注解。”在演讲中,王春晖通过古希腊大哲学家苏格拉底的提问法,强调了“提出问题”与“鉴别答案”的能力对于使用AI大模型的关键作用,而且提出了提示词工程(Prompt Engineering)的概念。
据介绍,提示词工程的核心是“通过精准设计提示语,引导LLMs生成有用内容”,而优秀的提示词工程师需具备“专业知识+行业洞察+创意设计”能力,这一职业已成为AI服务业的“高端赛道”。
王春晖表示:“在工业、医疗、法律等领域,专业提示词工程师能让AI模型的效率提升30%以上——比如医疗提示词工程师,可通过设计‘病例描述+诊断需求’的精准提示,让AI辅助诊断的准确率大幅提高。”
王春晖进一步指出,提示词工程的本质是“人与AI的协同对话”,而这一过程又会产生新的“高质量交互数据”,反哺数据集迭代——形成“数据→提示词→新数据→更优模型”的闭环。
其实,8月26日,《国务院关于深入实施“人工智能+”行动的意见》中就对人工智能数据供给加以引导。要求以应用为导向,持续加强人工智能高质量数据集建设。支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业等。
在政策与产业结合层面,王春晖重点解读了“健全促进实体经济和数字经济深度融合制度”,将此前的“数实融合”调整为“实数融合”。他认为,数智化转型的最终目的,不是盲目的数智化应用,而是因地制宜地推动以实体经济需求为牵引的产业数智化的高质量发展,加快实现和形成与新质生产力相适应的数智化生产关系。