1月25日,北京市第十六届人民代表大会第四次会议开幕。数字经济、人工智能等科技话题成为不少代表关心的议题。北京市人大代表,来自成方金融科技有限公司的涂锟就带来了《关于打造高质量数据产业生态中心的建议》。

北京市人大代表涂锟。受访者供图
涂锟告诉新京报贝壳财经记者,当前大模型性能受限的原因之一在于垂域数据封闭,公开数据已无法满足专业化场景需求。“尽管当前大模型技术热度高涨,但其在专业领域的应用仍存在准确性不足的问题。这一现象的本质在于,互联网公开数据已被充分挖掘,高质量训练数据面临枯竭的危机。另一方面,真正具备高业务价值的垂域数据大多沉淀于各行业机构内部,目前尚未实现有效流通。”
他认为,这是由于数据的合规高效共享,面临着确权困难、价值评估缺失、利益分配机制缺位等诸多挑战。
对此,涂锟提出建立“数据制度试行区”,推进数据制度试验与数据创新实践相结合,围绕数据产权、流通交易、收益分配和安全治理等环节,通过建立包容审慎的柔性监管模式,推进数据应用快速落地见效,结合具体应用场景探索制度落地和创新路径,在此过程中探索建立基本制度框架。例如在自动驾驶、医疗健康等领域试点,通过边实施、边修订的模式,形成“制定-实践-总结-反馈-修订”的快速良性循环,通过具体实施来发现问题、解决问题,从而逐步建立起切实可行又有效保障的数据制度体系。
对于高质量数据集,涂锟建议围绕数据全生命周期、全产业环节,开展数据资产登记、人工智能数据集质量评估等标准的建立和试点工作,以标准引领数据质量提升,构建各专业领域的行业高质量数据集。同时,鼓励创新试验区内的数据跨域、融合应用探索。
“该构想可以‘先行动、后完善’。通过实际运行暴露问题,逐步反向推动法律法规、监管标准与市场机制的配套建设。同时,实验区还可带动数据预处理环节的产业化发展,包括数据清洗、标注、质量评估等,形成新的就业形态与经济链条。例如,以建设‘行业高质量数据集’为切入点,同时对于数据相关各环节,如数据治理和清洗(数据准备)、数据评估(数据质量)、数据标注、数据安全隐私保护、可信数据空间建设等环节鼓励并推动上述基础服务的规模化、产业化。”涂锟对新京报贝壳财经记者表示。