21世纪经济报道记者骆轶琪大同报道
在先进计算能力快速发展,并逐渐形成生态突围的同时,围绕先进存力的发展也在持续加码并推进路径优化。
2025中国算力大会期间,在先进数据存力分论坛上,《先进存力中心研究报告(2025年)》(下称《报告》)发布。中国信通院云大所总工程师郭亮进行报告解读时指出,数据作为基础性战略资源和关键生产要素,其价值释放与高效利用已成为推动经济社会高质量发展的核心动力。
然而,一方面数据生产量的快速增长与存储资源扩充速度不匹配的问题日益凸显,数据“应存未存”的现象依然存在;另一方面,数据质量和数据规模是决定AI发展的关键。
对此,他从顶层规划、数据治理、算存协同发展等维度提出发展建议。
开幕式上还发布了《2025存力发展报告》,其中提到,大模型训练对存储提出毫秒级延迟、TB级带宽、EB级扩展要求,推动全闪化、AI数据湖、内生存储安全等技术同步发展。
存力稳步升级
虽然业界对存力的关注时点看起来晚于算力,但国内存储产业实际上有一定根基沉淀,且近些年来整体呈现稳健增长态势。
报告显示,2022-2024年间,我国存力总规模均以超过20%的增长率扩张。截至2024年底,全国数据存力总规模达1580EB,全年新增380EB,同比增长32%。
同时,存力结构持续优化,技术加速演进。闪存在外置存储中的占比从2023年的25%提升到2024年的28%,显示存储系统正加快由容量驱动向性能导向转型,其结构更趋高效。
郭亮指出,从区域发展角度看,我国存力布局呈现“东部引领、中西提速”的差异化协同发展态势。从存储结构来说,外置存储体系由“容量导向”向“性能导向”转变,多行业闪存出货量占比普遍提升10-20个百分点。
在数字经济发展过程中,多个行业已经在积极采用闪存类产品,呈现分层演进趋势。其中,制造、互联网、金融等行业闪存替代节奏快,占比已超45%;教育、医疗、交通等行业在政策支持下稳步优化结构。
当然,随着数据的战略地位升级,众多行业对大模型的应用需求涌现,对存力也是如此。
郭亮分析道,首先,大模型训练需要海量多模态数据,历史数据的价值逐渐凸显;其次,非结构化数据蕴含更大价值,但其数据采集、处理、应用流程相对复杂;此外,数据规模与数据质量决定AI模型的性能,需要对大量分散数据进行集约化建设,打破数据孤岛;以及数据流通是数据要素价值释放的关键环节,需要建设数据可信流通空间。
回顾来看,我国存力建设的相对滞后,导致当前数据留存有一定缺口。
郭亮进一步指出,目前面临的挑战在于:海量非结构化数据需要低延迟、高吞吐的存储性能,数据要素汇聚需要PB级甚至EB级的存储规模;同时,数据年产量由32.85ZB,增至41.06ZB,增速25%,但数据存储总量由1.73ZB提升至2.09ZB,增速仅为20.81%,二者增速略有差异;此外,当前数据留存率由2.89%下滑至2.8%,同比下降3.15%,数据“应存未存”现象依然存在;存储空间利用率则从2023年的59%提升至61%,有效存储空间被进一步压缩。
向存储要价值
近些年来,业界对存力建设也经历了思路演进。
郭亮回顾道,数据存力概念自2022年被首次提出;到2023年提出先进存力概念,其中指出以“大容量、高性能”为基础,以“先进介质、高效架构”为支撑,以“开放生态、绿色低碳、安全可靠”为关键。此后两年仍在演进,到2025年先进存力中心建设启动。
面对前述存力发展过程中面临的挑战,郭亮提出建议展望:在顶层规划方面,国家层面制定统一的先进存力中心建设规划,明确发展目标与布局;结合“东数西算”战略,兼并执行“东数西存”,优化全国数据存储资源分布;结合算力基础设施建设经验,出台先进存力中心建设标准,目前标准研究工作已经启动。
具体举措方面,应完善数据治理体系,保障数据价值安全流通。同时深化存力算力协同发展,探索如量子存储、DNA存储等先进存储技术应用,打造存算一体化示范项目;聚焦闪存技术、架构、AI融合、内生安全等关键技术,加大研发投入。此外,也要强化人才培育,打造数据产业生态集聚区。
前述报告中也具体提到应对方式,包括构建存算协同新模式,通过部署AI数据湖存储技术,实现多源数据的统一归集,并依托数据清洗、标注、特征融合等治理工具,将原始数据转化为具有行业特征的高质量数据集。
同时采用全局数据可视编织技术,实现多源数据全局可视可管;通过构建统一数据访问接口和业务语义层,结合数据湖大规模低成本存储能力,形成湖仓一体架构,以此逐渐打破数据孤岛。
安全层面,应采用内生存储安全机制,实现数据全生命周期防护,同时构建数据可信流通空间。
报告还指出,SSD发展触发成本拐点,全闪数据中心成为AI时代战略选择。SSD凭借高速读写、低时延和高并发优势,可为高性能计算提供持续、稳定的数据吞吐,从而全面承载各类对性能要求苛刻的海量数智化应用。全闪介质的高能效比特性也符合绿色低碳建设目标。
在推进先进存力建设过程中,产业界已经有一定经验沉淀。
华为公司数据存储产品线副总裁肖德刚分析道,先进存力是智能时代数据基础设施的核心,应通过“聚数、治数、用数”驱动数据资源走向数据资产。
当然在先进存力建设过程中,不同主体面临的挑战有所差异,因此其建设侧重点其实有所不同,也即分层推进先进存力建设。
肖德刚进一步分析道,其中城市应建设存力中心,行业则是建设语料库,企业需建设AI数据湖,以此驱动先进存力发展。
具体来说,城市存力中心建设,需要通过统一的数据空间,把各类数据进行汇聚,并最终达到效果全局可视、分门别类管理、可安全流通。对此,华为已有一定实践,目前有多个存力中心上线或逐步上线。
在行业层面,通过数据交换空间,建设语料库,同时做到可信策略管理、可信高速传输通道等,以实现数据流通全流程可信、可控、可证。目前华为已经联合国内某车企进行联合创新并落地,把城市数据和行业数据汇聚到统一平台,在其中构建可信数据流通空间,最终可以实现对区域内新能源汽车进行安全隐患派车等安全监管服务,此外将数据脱敏后,还能提供金融保险、汽车销售等价值变现。
对于单一企业来说,通过AI全流程工具链,建设AI数据湖,令其整体运行更自主高效。