近日,网络安全与基础设施服务商Cloudflare遭遇自2019年以来最严重的服务中断事件,故障持续近5小时,导致ChatGPT、社交媒体平台X等多家网站部分用户无法正常访问。
值得注意的是,此次事件并非网络攻击所致,而是由配置文件异常引发系统崩溃。 Cloudflare在随后不久发表声明:“Cloudflare已察觉并正在调查一个影响多个客户的问题:大范围500错误,Cloudflare仪表板和API也出现故障。”
该事件再次引发业界对集中式网络基础设施可靠性的广泛讨论。
Akamai亚太地区及日本安全技术和战略总监Reuben Koh在接受《中国经营报》记者采访时表示,问题的核心在于集中性风险,现代技术栈的复杂性意味着没有服务商能够完全避免故障。此次事件进一步证明,当核心基础设施出现故障时,可能会拖累部分互联网生态系统。
实际上,集中式网络基础设施的崛起源于数字化浪潮中对效率、成本与技术标准化的追求。在云计算普及初期,亚马逊AWS、微软Azure、Cloudflare等巨头通过构建规模化数据中心集群、统一技术架构与全球分发网络,大幅降低了企业数字化门槛,企业无须自建复杂的服务器集群与安全防护系统,仅需按需付费即可获得稳定服务。
但集中式网络基础设施在AI时代面临严峻挑战。随着数字化进程的加速,互联网对少数关键基础设施的依赖程度日益加深。这种高度集中的架构虽然提高了效率,但也使得整个系统变得异常脆弱。一旦核心节点出现问题,就可能引发连锁反应,导致大范围的服务中断。
Reuben Koh认为,当关键基础设施过度集中于少数几家中心化的超大规模供应商时,单个配置错误或硬件故障的影响范围将被急剧放大。例如,一个本地故障可能引发全球范围的连锁反应,导致关键服务同时瘫痪。问题的根源在于过度的集中性风险。
“行业一味追求100%的正常运行时间并未触及核心问题。”在Reuben Koh看来,“我们必须预设故障必然发生,并以韧性为核心采用不同的架构设计。这也意味着需要建立多层次的容错机制,摆脱对中心化可用区的依赖,转向更灵活、去中心化的模式。将降级的设计原则融入系统,使其在出现故障或承受压力时能够灵活应变而非彻底崩溃。”
近年来,全球云厂商也开始纷纷布局分布式边缘计算,试图通过分散式架构降低集中性风险。亚马逊AWS、微软Azure、Akamai等云厂商近年来不断加大在边缘计算领域的投入,将计算资源从中心化数据中心向网络边缘延伸,构建起覆盖全球的分布式计算网络。这种架构不仅缩短了数据传输距离,提升了响应速度,更重要的是通过地理分散性降低了单一区域故障对全局服务的影响。
Reuben Koh表示,展望未来,随着AI工作负载和实时推理成为数字常态,性能与运行时间的容错空间将进一步收窄。依赖单一中心化供应商处理关键任务型AI,将成为企业难以承受的高风险策略。