• 最近访问:
发表于 2025-08-29 04:56:10 股吧网页版
张向宏:高质量数据成AI发展关键 呼吁形成数据付费意识
来源:南方都市报

  “今年全行业最高频的热词有两个,第一个人工智能,第二个就是高质量数据集。高质量数据集构建已经引起了全社会的广泛关注和共识。”张向宏说道。随着人工智能正加速落地到千行百业,高质量数据集成为影响人工智能快速发展的重要燃料。

  日前,2025 数博会在贵州贵阳如火如荼地举行。8月28日上午,北京交通大学信息管理理论与技术国际研究中心(ICIR)特聘教授张向宏接受媒体采访时指出,人工智能发展的三大要素算力、算法和数据中,算力和算法的壁垒已因技术创新和开源趋势而被突破,但新的瓶颈正在显现,即高质量数据的缺乏。

  他提到,尽管政策和产业层面不断推动数据采集、标注和交易机制的建设,市场仍面临“作坊化生产”“企业规模偏小”以及“缺乏付费购买数据意识”等挑战。

  张向宏呼吁,政府应率先建立制度化的数据购买和使用机制,推动数据价值被社会广泛认可,同时地方探索如“语料券”等创新做法,也为推动高质量数据集发展提供了实践经验。

  我国数据产业规模接近6万亿,数据企业超40万家

  去年张向宏曾在数博会上发布了我国的第一张数据产业图谱。历经一年,他表示全国数据产业发生了很大变化。

  首先是数据企业增长速度很快,从去年的19.7万家增加到今年的超过40万家;其次数据规模在快速扩大,数据产业规模从去年2.9万亿增长到今年的5.86万亿。第三,数据产业集聚区初见雏形,长三角、珠三角以及中西部多个地区都形成了以地市和区县为载体的一大批数据产业集聚区。

  据他透露,今年底前国家还将发布首批“国家数据产业集聚区”,涵盖数据企业、技术、应用、服务、安全和基础设施等领域的最新成果。

  张向宏谈到,近年来国家在推动数据要素化、价值化方面虽已取得显著成就,但挑战仍然突出。首先,从产业主体规模来看,尽管我国目前已有超过40万家数据企业,但与400多万家数字经济核心企业和上千万家数字产业企业相比,整体规模仍偏小,产业基础相对薄弱。

  更大的挑战来自国家数据基础设施建设。如何在保障安全的前提下,实现数据的大规模、高效率流通,是全球共同面临的难题。

  据张向宏介绍,我国已率先探索并于去年发布《国家数据基础设施建设指引》,提出“数场、可信数据空间、数联网、隐私保护计算、区块链和数据元件”六条技术路线。目前,全国已有18个地区开展试点,25个地区推进互联互通,今年又新增42个试点,总体超过60个地区和行业同步推进。经过一年的探索,试点初步见效,在可信数据流通、跨区域跨行业互联互通,以及供需主体和中介服务的培育方面均取得积极进展。

  他表示,国家数据基础设施建设是一个循序渐进的过程,整体规划分为三步:第一步是试点示范,第二步是技术融合收敛,第三步是应用推广。预计到2026年底第一阶段完成,2028年底能够基本形成横向联通、纵向贯通、协调有力的局面,到2029年之后,国家数据基础设施建设将迎来更大的发展与突破。

  不过张向宏也指出,这一工作仍处于起步阶段,存在多方面差距。一方面,目前90%以上的数据属于涉隐涉密数据,无法在互联网环境直接流通;另一方面,上述六条技术路线的技术成熟度,到互联互通的实现水平,再到供需主体质量、应用场景丰富度和数据处理效率,都仍需提升。

  社会整体缺乏数据付费意识,地方探索“语料券”等机制

  近年来我国在人工智能和数据资源开发利用两个维度上探索数据要素化、价值化的过程中都取得了不俗成就。特别是DeepSeek的出现,更是推动了人工智能在各行各业的落地应用增加。

  张向宏聊到,这一突破与人工智能的三要素“算力”“算法”和“数据”有关。其中,DeepSeek 在技术上的创新实现了算力平权和算法平权:以远低于 OpenAI 的算力达到相近水平,并通过推动模型开源打破了算法的封闭格局,使得算力和算法的壁垒大大降低。由此,人工智能发展的前两个瓶颈被突破,但新的瓶颈随之而来,即高质量数据的缺乏。

  他进一步指出,高质量数据成为人工智能发展的核心焦点,产业链也在逐渐清晰:从工业数据训练出基础大模型,再结合行业高质量数据集生成垂直大模型和智能体,进而应用于各行各业。这一过程中,数据的质量决定了智能体和垂直大模型的价值。例如,工业和商业领域需要大量力觉、视觉、听觉等数据来训练智能机器人,而医疗、政务、自驾等行业则依赖于各自深藏于私域的行业数据。因此,无论是智能体还是垂直大模型,构建高质量数据集是关键问题。

  在政策和产业推动下,许多地方建立了数据采集标注基地和高端数据中心,市场需求十分旺盛。然而,张向宏指出,目前我国高质量数据集的构建仍存在明显问题。首先,行业整体仍处于“作坊化生产”阶段,自动化和智能化程度较低。其次,数据建设企业规模偏小,水平不高。

  更重要的是,社会整体缺乏“花钱买数据”的意识。无论政府、企业还是个人,普遍习惯于花钱买算力、买模型,却没有花钱购买数据的习惯。这导致政府无法直接公开涉密的原始数据层面,但又缺乏预算支持高质量数据集的加工和供给。企业之间也普遍存在“要上游数据免费给我,但不给下游数据”的单向共享现象。为解决这些问题,张向宏呼吁推动政府率先垂范,建立付费购买和使用数据的习惯,形成数据价值认可的氛围。

  值得关注的还有,地方探索正在提供有益经验。例如,深圳继“算力券”之后推出“语料券”,在供给方、需求方和交易环节均给予补贴支持。供给方上传高质量数据集可获最高200万元补贴;需求方购买高质量数据集也可获补贴;交易环节则要求通过数据交易所完成。这种探索有效促进了供给、需求和交易的良性循环。

  此外,上海、北京等地也在探索类似机制,如语料交易在北京大数据交易所已占比超过八成,部分地区还在尝试以高质量数据集“作价入股”。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500