财葡萄修改于昨天 23:30· 来自iPhone
$罗博特科(SZ300757)$ 刚才某些人还私信我说OCS 替代罗博特科的CPO ,真是笑哭了。努力做个信息搬运工。再发一篇让你们看看什么是CPO 是AI 时代唯一的解。
服务器解耦:重构数据中心资源分配逻辑
Drut将“服务器解耦”(Server Disaggregation)视为解决上述困境的核心方案——即打破传统服务器的“CPU-内存-GPU-存储”一体化结构,将硬件资源拆分为独立的资源池(CPU池、GPU池、存储池、FPGA池等),再通过动态互连技术,跨机架组合成“定制化机器”(Composed Compute System)。
这种解耦架构的核心价值在于:
1. 资源弹性分配:根据AI workload需求,实时调配GPU、存储等资源,例如为大模型训练分配32路GPU,为轻量推理分配1-2路GPU,避免资源闲置;
2. 独立升级路径:GPU、服务器可分别升级,无需因GPU迭代而更换整台服务器,延长硬件生命周期,降低升级成本;
3. 跨机架扩展:突破物理机架的限制,实现资源的全局调度,满足大规模AI集群(如GPU Farms)的部署需求。
而实现服务器解耦的关键,在于低延迟、高带宽的动态互连技术——这正是Drut 2500系列光子架构与光交换(OCS)的核心应用场景。
核心硬件组件:2500系列的光子互连基石
Drut 2500系列通过“Fabric Interface Card(FIC 2500)+ Photonic Resource Unit(PRU 2500)”的硬件组合,构建了服务器解耦的物理基础。
1. Fabric Interface Card(FIC 2500):服务器与光子 fabric 的桥梁。
FIC 2500是插入服务器(主机)PCIe Gen5插槽的光纤接口卡,承担“连接主机与资源池”的核心角色,其关键技术参数与功能包括:- 形态与兼容性:采用全高半长(FHHL)设计,适配标准PCIe Gen5 x16插槽,兼容市面上所有带可用PCIe插槽的现成服务器(Off-the-Shelf Servers),无需定制硬件;- 互连能力:搭载2或4个CPO 2.0 光模块连接器,每个CPO引擎提供8个独立通道,支持16x100G(2个CPO)或32x100G(4个CPO)的fabric端口带宽;通过MPO16单模光纤电缆连接,单卡总量可达1.6 Tbps(2个CPO)或3.2 Tbps(4个CPO);
- 资源扩展:每台服务器可部署1-2张FIC 2500,支持最多32路GPU per主机(通过连接PRU 2500资源池实现),满足AI/ML对大规模GPU集群的需求;
- 软件协同:与Drut DynamicXcelerator软件深度集成,实现实时带宽分配、故障冗余与资源调度——例如动态调整PCIe通道为x8或x16模式,适配不同workload的带宽需求。
2026年,世界巨头预测光模块的需求是1100万支。还不包含国内的光模块需求,按照100万光模块等于4亿设备,计算机又按爆了。#罗博特科#