• 最近访问:
发表于 2025-09-21 22:51:09 股吧网页版
浙江大学教授王春晖:高质量数据集是AI大模型训练、推理和验证的关键基础
来源:中国经营报

  “如果一只坏钟每天只有两次指向正确的时间,人们会不会逐渐忽视它的故障,甚至依赖它所提供的假象,大语言模型正如这只坏钟,它们依赖互联网海量数据训练,却常常一本正经地‘胡说八道’。”9月21日,首届青海数据要素生态大会上,浙江大学教授、博导,中国科协决策咨询首席专家,全球数字经济大会中国数据要素50人论坛主席王春晖如是表示。

  当前,我国数据产业整体进入发展“快车道”,数据作为关键生产要素的价值日益凸显。依托于数据产业支持的人工智能和AI模型的更高阶进化和迭代,对高质量数据的需求尤其迫切。

  高质量数据集是基石

  基于当前数据产业生态以及AI大模型的训练模式,借助哲学家维特根斯坦的“坏钟寓言”为引子,王春晖指出,当前大语言模型(LLMs)存在的“幻觉”输出问题,若数据质量低下,模型输出的“幻觉”将误导认知、污染思想,而高质量数据集则是AI可信发展的基石。

  据其介绍,现在,LLMs的训练数据多源自互联网,质量参差不齐,生成内容依赖“概率性匹配”,而非“事实性判断”,这导致其常出现“幻觉现象”。

  为佐证这一风险,王春晖抛出一组关键数据:“研究显示,当训练数据集中仅含0.01%的虚假文本时,模型输出的有害内容会增加11.2%。”这一数据直指当前AI发展的核心痛点——高质量数据供给不足,尤其是专业领域数据的缺失,导致LLMs产生“幻觉”。

  面对数据质量带来的挑战,王春晖强调了高质量数据集对AI大模型训练、推理和验证的关键作用,并详细分类了高质量数据集的类型,包括通识数据集、行业通识数据集和行业专识数据集,并指出这些数据集是支撑通用大模型和行业模型落地应用的基础。

  其中,“行业通识数据集”,包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用。如医疗健康数据:个人属性数据、健康状况数据、医疗应用数据、医疗支付数据、卫生资源数据以及公共卫生数据等。

  而“行业专识数据集”,包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。医疗AI离不开高质量的专家标注数据。比如医疗病理数据标注复杂耗时,必须由临床专家执行以确保准确。

  作为最新发展趋势,AI与数据的融合发展,将逐步从以模型为中心到以数据为中心。不过,王春晖指出,以数据为中心的人工智能并未削弱以模型为中心的人工智能的价值,而是两种范式在构建AI系统时相互补充交织。

  AI时代的“提问艺术”

  “人类最高级的智慧,是向自己或别人提问——苏格拉底的这句话,在AI时代有了新注解。”在演讲中,王春晖通过古希腊大哲学家苏格拉底的提问法,强调了“提出问题”与“鉴别答案”的能力对于使用AI大模型的关键作用,而且提出了提示词工程(Prompt Engineering)的概念。

  据介绍,提示词工程的核心是“通过精准设计提示语,引导LLMs生成有用内容”,而优秀的提示词工程师需具备“专业知识+行业洞察+创意设计”能力,这一职业已成为AI服务业的“高端赛道”。

  王春晖表示:“在工业、医疗、法律等领域,专业提示词工程师能让AI模型的效率提升30%以上——比如医疗提示词工程师,可通过设计‘病例描述+诊断需求’的精准提示,让AI辅助诊断的准确率大幅提高。”

  王春晖进一步指出,提示词工程的本质是“人与AI的协同对话”,而这一过程又会产生新的“高质量交互数据”,反哺数据集迭代——形成“数据→提示词→新数据→更优模型”的闭环。

  其实,8月26日,《国务院关于深入实施“人工智能+”行动的意见》中就对人工智能数据供给加以引导。要求以应用为导向,持续加强人工智能高质量数据集建设。支持发展数据标注、数据合成等技术,培育壮大数据处理和数据服务产业等。

  在政策与产业结合层面,王春晖重点解读了“健全促进实体经济和数字经济深度融合制度”,将此前的“数实融合”调整为“实数融合”。他认为,数智化转型的最终目的,不是盲目的数智化应用,而是因地制宜地推动以实体经济需求为牵引的产业数智化的高质量发展,加快实现和形成与新质生产力相适应的数智化生产关系。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500