• 最近访问:
发表于 2025-07-28 14:19:40 股吧网页版
产业多方发力高质量数据集 上海建设语料基座释放明确信号|直击WAIC2025
来源:财联社

  财联社7月28日讯(记者付静张校毓)一年一度的AI产业盛会世界人工智能大会(WAIC)正在上海举行,财联社记者现场观察到,人形机器人、AI眼镜等应用的展台前颇为热闹,其背后的数据亦受到多方关注。

  “数据既是AI模型的基础,也是应用的基础,数据准备占模型训练80%以上的工作量。大语言模型本质上还是对于基础数据的知识的压缩,其实本质上还是个统计学的模型。”中国电子云高级副总裁黄锋在接受财联社等媒体采访时表示。

  WAIC2025期间,上海在建设语料基座方面释放出明确信号:一方面通过进一步加大稀缺语料数据集、思维链数据集建设等方面专项工程,聚焦具身智能、科学智能,做优行业语料,构建多层次语料供给体系;另一方面,强化语料标准建设,升级语料运营平台,进一步攻关数据合成、思维链数据集成等方面新技术,持续优化创新新型数据底座的建设。

  据悉,前期上海已做了大量的语料数据库建设,接下来不仅将注重高质量语料,还将布局新的领域,重点在突破具身智能、强推理、稀缺数据集等三个专项。

  由于高质量数据集建设面临着目标定位模糊、实施路径碎片化、技术底座薄弱三大难题,国家部委和地方政府注重“人工智能+数据要素”政策协同布局。目前,建设高质量数据集也成为众多领域企业布局AI大模型的一大“重头戏”。

  财联社记者最新获悉,上海库帕思科技有限公司(简称“库帕思”)按上海市整体部署打造了全国首个语料运营公共服务统一门户,深化众包众创和开源开放的语料运营机制。库帕思曾于WAIC2024期间发布《语料库建设导则》,今年则集中发布了10项团体标准、3项行业标准、1项指南。

  库帕思董事长山栋明称,数据正发生一系列变化,如从传统的互联网向学术密集型转变、从两维平面向立体高维转变、从原生数据向合成语料转变、从关注预训练向后训练转变。为此,公司的做法包括重构语料数据的方法体系及基础设施、链接行业生态。

  励讯集团(RELX)中国区高级副总裁张玉国在接受财联社记者采访时表示,语料资源长期供给不足,其根源在于数据资源供给机制尚不健全。“一个成熟的数据市场,应能支持企业按照自身需要,自主采购、加工、标注数据并高效完成合规验证。目前这一市场链条尚未打通。”

  WAIC2025期间,中国电子云面向国家关键行业推出全链路AI解决方案,亦涵盖多模态数据治理平台。据悉,中国电子云目前与国内超过五家国家实验室和超过十家央企达成了高质量数据集合作意向。

  黄锋称,近年大家越来越重视多模态的数据治理平台工具链,但是市面上现在相对成熟的平台不多。“中国电子云多模态数据治理平台的定位,是通过一系列的治理动作把原始的数据集变成AI ready的数据集,包括文本解析、关键信息提取、数据标准化、归一化、去重等工作。平台的产出是高价值、高密度、标准化的数据,可以直接用于模型训练,也能有效提升模型的效果和性能。”

  “今年以来B端客户对大模型应用落地意愿增强了,但落地快不快也得看企业自身的数据好不好。”一家AI方案商相关负责人也对财联社记者如此表示。

  对于上述现象,中国工程院院士、清华大学教授郑纬民总结为,“企业拥抱AI有章可循:找准核心问题、用好高质量数据、微调基础大模型即可见效。”

  高质量数据集是指用于训练、验证和优化大模型而收集、整理、标注形成的覆盖行业核心专业知识和生产经营活动的数据资源集合。2023年12月31日,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024-2026年)》提出,推动科研机构、龙头企业等开展行业共性数据资源库建设,打造高质量人工智能大模型训练数据集。今年4月30日,《高质量数据集建设指南(征求意见稿)》发布。

  谈及为何国家数据局强调高质量数据集,黄锋分析称,真正要落地智能体应用时,如果做行业模型所需的数据集没有准备好、从数据知识库的构建到应用开发平台的数据没有准备好,大概率会模型效果不好。

  值得注意的是,WAIC期间,不少领域的企业介绍了各自高质量数据集的建设进展。

  例如:东航数科董事长高志东称,东航正在着力构建安全、营销、服务、运行、机务、管控等多领域数据集。高志东坦言,在此过程中东航遇到了跨主体数据共享难度大、缺乏统一标准、多源异构数据融合难等挑战。

  此外,广州国家实验室助理研究员邵健表示,为解决可穿戴设备“数据质量”问题,当前广州国家实验室正建设一个25万人规模的高质量多模态数据资源库,依托多模态数据和高质量可穿戴数据,希望发掘出能反映呼吸疾病早期进展的数字标志物,实现对于相关病症“预测风险”。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500