• 最近访问:
发表于 2025-08-26 17:00:59 股吧网页版
孟庆国:培育数据标注新业态 推动建设高质量数据集
来源:人民网

  随着人工智能技术快速发展,高质量数据集已成为推动生成式人工智能创新发展的核心稀缺要素。

清华大学中国电子数据治理工程研究院院长孟庆国在2025人民数据大会发表主旨演讲。人民网记者翁奇羽摄

  8月26日,清华大学中国电子数据治理工程研究院院长孟庆国在“2025人民数据大会”发表主旨演讲时表示,人工智能的每一次发展和进步都与数据有关,没有数据的支撑,人工智能将寸步难行。在大模型时代,有没有成规模、高质量、多模态的数据,成为行业发展的基础。

  高质量数据集是什么?

  孟庆国表示,高质量数据集需要具备以下要素:有一定规模、准确性高和拥有足够多样性,同时还包括数据的时效性,数据是否合规、合法,以及数据和训练模型之间的匹配程度。

  数据标注作为将原始数据转化为可识别、可训练、可计算的关键环节,其质量直接决定了数据集的应用价值。培育壮大数据标注产业对于提升数据供给质量,推动人工智能创新发展具有重要支撑作用。

  孟庆国表示,近年来,我国数据标注产业链发展迅速,市场规模达800多亿,但依然存在高质量行业数据规模较小、数据治理的能力不足、复合型标注人才存在缺口、数据质量的评价体系不完善等现象。

  如何开展数据标注?

  在国家战略布局和大模型技术突破的双重驱动下,数据标注产业正在经历从劳动密集型向知识密集型的深刻转型。孟庆国表示,从历史维度来看,过去的数据更多依赖人工,如今是以工具和平台作为标注手段,未来,依靠人工智能自身去进行数据标注将成为趋势。在做好布局和探索过程中要把握以下几方面路径:

  要进行需求牵引,通过挖掘人工智能的场景,来释放标注的需求。要因地制宜,通过构建一些特色产业的场景,来发展具有特色性的数据标注产业。要夯实基础支撑,在数据质量、数据伦理、数据安全得到保障的前提下,构建数据可信的标注空间,助力数据价值释放。要打造产业聚集,通过产业聚集推动数据产业的发展。要带动就业,通过数据标注,发展具有专业领域知识的专门性标注人才。要营造良好产业生态,特别是在政策、制度、标准、公共服务平台建设等方面进一步营造好数据标注的发展环境。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500