阿里云这个Aegaeon系统,最近上了SOSP 2025,直接把GPU用量砍掉82%,这事在圈内其实比表面看起来更值得盘一盘。
先说结果——从1192张H20 GPU干到213张,省了八成多。这不是小打小闹的优化,而是结构性重构带来的质变。背景也很清楚:大模型上线后,真正扛流量的就那么几个头部模型,比如Qwen,大部分长尾模型请求量极少,但每个都得占着一张或多张卡待命。数据摆在这儿:17.7%的算力只服务了1.35%的请求,这属于典型的资源错配。
问题出在哪?传统模式是“一个模型绑一张GPU”,哪怕它闲着也得占着资源,显存锁死、算力空转。这种静态分配方式在AI服务规模化之后,成本根本压不住。尤其对云厂商来说,客户越多、模型越杂,浪费越严重。
那它的解法是什么?Aegaeon搞的是GPU资源池化,核心叫token级调度。什么意思?不是按模型切时间片,而是在生成每一个token之后,动态判断要不要切换模型。这就相当于把GPU变成一个高速流水线,多个模型穿插执行,谁有请求就处理一把,处理完立刻腾地方。
关键难点在于切换开销。模型来回切,显存怎么管?KV缓存怎么同步?组件能不能复用?如果每次切换都要几百毫秒,那延迟直接爆表。但资料显示,Aegaeon通过全栈优化——包括显存精细化管理、组件复用和KV缓存同步机制——把模型切换开销压低了97%,做到亚秒级响应。这才是技术硬核的地方。
结果也很实在:单张GPU能同时服务最多7个不同模型,有效量提升1.5到9倍,请求处理能力翻了一倍都不止。现在这套系统已经用在阿里云百炼平台,说明不是实验室项目,是真正在生产环境跑的。
这么看下来,未来竞争不在谁买得多,而在谁用得省。英伟达的卡再贵,终究是固定成本;但你怎么调度、怎么池化、怎么让每一张卡都接近满载运行,这才是软件层能打出的差异化。
目前全球都在往这个方向走,系统软件和AI大模型的融合成了新趋势。这次入选SOSP,说明阿里云在底层架构上的投入开始出成果。至于下一步,肯定是把这套能力产品化,对外输出给更多企业客户,帮他们降本。
但具体打法还没看到细节——比如是否开放API、如何计费、兼容哪些框架,这块信息还是缺失的。不过可以肯定的是,算力利用率这场仗,才刚刚开始。