← 返回博客
OFC 2026OCS光交换AI 训练AllReduceGPU 集群光互连LLaMA2

光交换机正在变成 GPU 集群的神经系统——OCS 与 AI 训练的故事

神经系统类比,不是噱头

大脑的神经系统做了一件非常精妙的事:它不是给所有神经元之间建立永久连接,而是按需激活——哪里需要信号,哪里就建立临时通路,用完释放,极其高效。

GPU 集群的通信网络,长期以来做的是相反的事情:建立一张固定的、全连接的电路交换网络,不管当前 GPU 在做什么——前向传播、反向梯度、还是在等同步——带宽都在那里,不用也在烧钱。

光电路交换(OCS,Optical Circuit Switching)提供了另一种可能:按训练阶段动态重构光路,前向传播时走一套拓扑,AllReduce 时换一套,专家并行时再换一套。

听起来很美好。但问题是:OCS 的光路重配速度能跟上训练节奏吗?

OFC 2026 给出了一个让很多人意外的答案:可以。不只是”理论上可以”,而是”生产级验证,跑过了”。


AllReduce 的特殊性:流量中最难搞的那类

在讨论 OCS 之前,先说清楚为什么 AI 训练的流量如此特殊。

训练大模型,不是一个 GPU 独自在工作。以 LLaMA2-70B 为例,它的参数量需要多卡分布存储、计算,每隔一个迭代轮,所有 GPU 必须同步一次梯度——这就是 AllReduce

AllReduce 的流量有三个显著特征:

1. 阶段性强。 训练流量分为三段:前向传播(Forward Pass)、反向梯度计算(Backward Pass)、集合通信同步(AllReduce)。这三段几乎是顺序执行的,时间可预测。

2. 突发性高。 AllReduce 发生时,所有 GPU 同时向网络发送梯度数据,带宽需求在短时间内急剧飙升,然后归零,等下一轮。

3. 拓扑相关性强。 专家并行(Expert Parallelism)需要某些 GPU 对之间的带宽远超其他;张量并行(Tensor Parallelism)有固定的通信组;数据并行(Data Parallelism)又是另一种拓扑。不同的并行方式,对网络拓扑的要求完全不同。

传统的电交换网络(Electrical Packet Switching)面对这种流量,解法只有一个:堆带宽。做一张静态的、超配的全连接 fat-tree,保证任何时候任何两点之间都有足够的带宽。这个方案有效,但代价是:你永远在为”峰值”买单,而大多数时候峰值并不存在。

OCS 的思路是:我知道你的流量模式有规律,我就按规律动态建立光路,用精确的连接替代冗余的连接。


OCS 的老问题和新答案

光电路交换作为技术概念,已经存在了二三十年。它最大的优点清楚:低延迟(没有电信号转换),高带宽密度,零误码(光路是透明通道),功耗效率好。

最大的问题也清楚:重配速度慢

传统的 MEMS 光开关(机械光开关),重配时间是毫秒级别。更快的硅光开关理论上能达到纳秒级别,但实际系统里,包括控制软件的开销、光路建立时间,端到端的切换 overhead 往往还是在百微秒到毫秒。

AI 训练的 AllReduce 通信,一轮可能只有几十毫秒甚至更短。如果 OCS 重配本身就要消耗几毫秒,overhead 比例就不可接受。

这个认知在很长一段时间里让大家觉得:OCS 适合做”粗粒度的、相对静态的”网络拓扑管理,不适合深入到训练迭代的内部。

OFC 2026 的论文系统性地打破了这个认知。


M4F 系列:OCS 切入训练内部

来自 AIST(日本产业技术综合研究所)的 M4F 系列论文,是这次大会里 OCS 方向最密集的突破。

M4F.4——这篇论文演示了,在 expert/tensor/data 三种并行方式之间切换光路,overhead 小于 2 微秒

2 微秒是什么概念?一轮 AllReduce 通信可能持续几十毫秒,2 微秒的切换开销,换算过来是 0.004%——完全可以忽略不计。

M4F.2 更进一步,提出了 “Hitless In-Job Partial TPE”(无损 job 内局部拓扑重配)的概念。

这个方案的核心逻辑是:训练 job 不需要整体暂停等待 OCS 重配。只有当前处于”不活跃状态”的光路才被重配;其他光路继续传输数据,完全不受影响(“hitless”,无损)。

这就好比一座城市在不影响正常交通的情况下,悄悄把某几条不拥堵的道路改成了单行线——既优化了路网,又没有堵塞任何人。

M4F.3 则研究了 OCS 与 AI 训练调度器的协同优化,把光网络的重配计划和训练 job 的通信计划做联合优化。

LLM 训练通信阶段时序图:Forward Pass / Backward Pass / AllReduce 与 OCS 切换窗口叠加
图 1:LLM 训练各阶段通信模式与 OCS 重配窗口的对应关系。OCS 在 AllReduce 阶段开始前触发,切换 overhead <2μs(M4F.4)

W4H 系列:从学术到工程验证

M4F 系列回答了”OCS 切换速度够不够快”这个问题。W4H 系列则回答了另一个更重要的问题:OCS 到底能给 AI 训练省多少?

W4H.4(来自北邮、中国联通、Infrawaves)的数据,是这次大会最被引用的数字之一。

他们搭建了一个 O/E 混合网络(OCS 负责大流量光路 + 电交换网络负责小流量包转发),与纯电交换网络进行了对比实验。结果:

指标纯电交换O/E 混合变化
AllReduce 时间基准降低 50.3%↓ 50.3%
带宽利用率基准提升 47.1%↑ 47.1%
系统功耗基准降低 32.14%↓ 32.14%

这三个数字,放到任何一家大型数据中心的运营成本计算里,都是非常有说服力的。

AllReduce 时间降低 50%,意味着训练任务整体的墙钟时间(Wall Clock Time)可以有显著压缩。对于动辄几周甚至几个月的大模型训练,这不是锦上添花——这是真实的算力节省。

W4H.3(来自 KDDI Research)则解决了另一个疑问:如果 OCS 网络跨越了较长距离(比如数据中心之间,30km),传播延迟会不会影响 AI Job 的完成时间?

答案是:不会。他们验证了,在引入 30km OCS 光路的情况下,AI Job Completion Time(JCT)没有出现显著下降——原因是 AI 训练的通信模式有足够的时序裕量,可以容纳适度的传播延迟。


W4H.5:最震撼的那个数字——600km

如果说 W4H.4 是功效验证,W4H.5 是这个系列里最具冲击力的一篇。

来自 ZTE 的团队,在真实网络环境中完成了以下实验:

  • GPU 数量:1024 张
  • 模型:LLaMA2-70B
  • 网络跨度:两个数据中心,相距 600 公里,通过 16λ×800 Gb/s OTN(光传送网)连接
  • 并行策略:数据并行 + 流水线并行

实验结果:

  • 数据并行效率损失 <5%
  • 流水线并行效率损失 <1%

600 公里。不是仿真,不是实验室光纤盘绕,而是真实部署的光纤网络。

这个数字的意义远超技术本身。它说明:AI 集群不必全部挤在同一个园区。当一个园区的供电和散热达到极限,训练任务可以透明地扩展到几百公里外的第二个数据中心,而不会因网络延迟损失大部分效率。

对于中国的 AI 基础设施布局来说,这是个关键信号:京津冀、粤港澳、成渝三大算力枢纽之间的协同训练,不再是”理论上可行”,而是”OTN 已经可以支撑”。


为什么 AllReduce 恰好适合 OCS?

说到这里,值得停下来想一个问题:为什么偏偏是 AI 训练流量,让 OCS 有了用武之地?

答案在于 AI 训练流量的可预测性

互联网流量是随机的——你无法知道下一秒哪个用户要发哪个请求。电子商务、视频流、社交网络的流量,从 OCS 的角度看,完全无法提前规划光路。

但 LLM 训练不一样。你知道这个 job 有多少 GPU,你知道它用的是什么并行策略(data/tensor/expert parallel),你知道它的迭代周期大概多长,你甚至可以通过 profiling 知道每一层的 AllReduce 发生在什么时间点。

这种结构化、周期性、可提前告知调度器的流量模式,是光电路交换几十年来等待的那类客户。

M4F.3 的研究方向正是如此:让 OCS 控制器和训练框架(PyTorch/NCCL)深度集成,训练框架在通信开始前几微秒通知 OCS 调度器需要什么拓扑,OCS 提前完成重配,通信开始时光路已经就位。


产业影响:谁从中受益?

OCS 进入 AI 训练生态,带来的产业变化是多维度的。

光开关硬件厂商是最直接的受益者。MEMS 光开关(Polatis、Agiltron)、硅光开关(Sicoya、Hengtong)、LCOS/AOM 系统——速度越快、端口数越多、损耗越低,竞争力越强。OFC 2026 的实验对开关速度的要求(<2μs overhead)为这个细分市场设定了新的标准门槛。

硅光平台厂商(Intel Foundry、TSMC SiPho、AIM Photonics)同样受益。高速硅光开关需要大规模光集成,OCS 系统的规模化部署是推动硅光量产的又一驱动力。

网络调度软件是最容易被忽略但最关键的一环。OCS 的价值需要和训练框架深度绑定才能发挥——控制面需要实时感知每个 GPU 的通信状态,并在微秒级别做出光路切换决策。这个软件栈目前几乎是空白,是系统集成商和软件公司的机会。

超大规模数据中心运营商(Hyperscalers)将是最终的需求端。Meta、Google、阿里、百度、字节这些公司,训练算力的 CapEx 和 OpEx 每年都以几十亿美元计。AllReduce 时间降低 50%,意味着同样的训练任务可以用更少的 GPU·小时完成——这换算成真金白银是非常大的数字。


OCS 的挑战:别忘了控制面

说了这么多 OCS 的好处,也要说说挑战。

控制面复杂度是最大的工程难题。要实现 <2μs 的切换 overhead,不只需要光开关本身快,还需要控制路径极短——从训练框架发出”我要通信了”的信号,到 OCS 完成重配,整个 round-trip 时间都必须控制在这个范围内。这要求训练框架、集合通信库(NCCL/MindSpore)和光控制器三者之间有非常紧密的软硬件协同,目前没有任何一个标准化接口。

可靠性和容错也是问题。光路一旦出现问题(光纤断裂、开关失效、耦合漂移),恢复时间必须足够快,否则整个训练 job 就会崩溃。传统网络的重路由机制需要在光域重新设计。

规模扩展:现在的实验规模是 1024 GPU,但下一代模型训练可能需要 100K GPU。光开关的端口数、损耗、串扰,在这个规模下的挑战和 1024 GPU 不在同一个量级。

这些挑战不是否定 OCS,而是说:从今天的实验室验证,到 5 年后的大规模产品化,中间还有很长的工程道路要走。


一个更大的图景

光交换的重要性,不只在于它让 AllReduce 快了一半。

更深层的意义在于:它让”网络拓扑可编程”这件事,第一次在真实的 AI 训练场景里变成了现实。

过去,网络拓扑是固定的——买了多少台交换机、怎么连接,就是什么拓扑,改起来要动物理线缆。OCS 让网络拓扑成了软件定义的对象:一个训练 job 可以申请”我需要全对全 AllReduce 拓扑”,另一个 job 可以申请”我需要 ring 拓扑”,网络调度器根据任务分配光路——就像操作系统分配 CPU 时间片一样。

这是光通信行业对计算架构演进做出的实质性回应,不只是”提供更多带宽”,而是理解计算的节奏,并主动配合

这也是为什么这篇博客系列的第一篇,把 OCS 列为 AI 时代光互连革命的核心主线之一——它代表的不只是一种交换技术,而是光网络和 AI 计算之间,一种全新的协作关系的开始。


参考文献

论文编号主题摘要
M4F.2Hitless in-job 光路拓扑重配加速 LLM 训练(GPT-2 验证)
M4F.3光交换与 AI 训练调度协同优化
M4F.4Expert/Tensor/Data parallelism 之间 OCS 切换,overhead <2μs
W4H.3跨集群 30km OCS 架构,不影响 AI Job Completion Time
W4H.4O/E 混合网络:AllReduce ↓50.3%,带宽利用率 ↑47.1%,功耗 ↓32.14%
W4H.51024 GPU × LLaMA2-70B × 600km 跨 DC 训练,DP 效率损耗 <5%

OFC 2026 系列下一篇:《CPO 进入工程化深水区》——那里有比光交换更硬核的工程挑战:玻璃基板、外置激光源、以及”最后一厘米”的散热战争。