光交换机正在变成 GPU 集群的神经系统——OCS 与 AI 训练的故事

神经系统类比，不是噱头

大脑的神经系统做了一件非常精妙的事：它不是给所有神经元之间建立永久连接，而是按需激活——哪里需要信号，哪里就建立临时通路，用完释放，极其高效。

GPU 集群的通信网络，长期以来做的是相反的事情：建立一张固定的、全连接的电路交换网络，不管当前 GPU 在做什么——前向传播、反向梯度、还是在等同步——带宽都在那里，不用也在烧钱。

光电路交换（OCS，Optical Circuit Switching）提供了另一种可能：按训练阶段动态重构光路，前向传播时走一套拓扑，AllReduce 时换一套，专家并行时再换一套。

听起来很美好。但问题是：OCS 的光路重配速度能跟上训练节奏吗？

OFC 2026 给出了一个让很多人意外的答案：可以。不只是”理论上可以”，而是”生产级验证，跑过了”。

AllReduce 的特殊性：流量中最难搞的那类

在讨论 OCS 之前，先说清楚为什么 AI 训练的流量如此特殊。

训练大模型，不是一个 GPU 独自在工作。以 LLaMA2-70B 为例，它的参数量需要多卡分布存储、计算，每隔一个迭代轮，所有 GPU 必须同步一次梯度——这就是 AllReduce。

AllReduce 的流量有三个显著特征：

1. 阶段性强。 训练流量分为三段：前向传播（Forward Pass）、反向梯度计算（Backward Pass）、集合通信同步（AllReduce）。这三段几乎是顺序执行的，时间可预测。

2. 突发性高。 AllReduce 发生时，所有 GPU 同时向网络发送梯度数据，带宽需求在短时间内急剧飙升，然后归零，等下一轮。

3. 拓扑相关性强。 专家并行（Expert Parallelism）需要某些 GPU 对之间的带宽远超其他；张量并行（Tensor Parallelism）有固定的通信组；数据并行（Data Parallelism）又是另一种拓扑。不同的并行方式，对网络拓扑的要求完全不同。

传统的电交换网络（Electrical Packet Switching）面对这种流量，解法只有一个：堆带宽。做一张静态的、超配的全连接 fat-tree，保证任何时候任何两点之间都有足够的带宽。这个方案有效，但代价是：你永远在为”峰值”买单，而大多数时候峰值并不存在。

OCS 的思路是：我知道你的流量模式有规律，我就按规律动态建立光路，用精确的连接替代冗余的连接。

OCS 的老问题和新答案

光电路交换作为技术概念，已经存在了二三十年。它最大的优点清楚：低延迟（没有电信号转换），高带宽密度，零误码（光路是透明通道），功耗效率好。

最大的问题也清楚：重配速度慢。

传统的 MEMS 光开关（机械光开关），重配时间是毫秒级别。更快的硅光开关理论上能达到纳秒级别，但实际系统里，包括控制软件的开销、光路建立时间，端到端的切换 overhead 往往还是在百微秒到毫秒。

AI 训练的 AllReduce 通信，一轮可能只有几十毫秒甚至更短。如果 OCS 重配本身就要消耗几毫秒，overhead 比例就不可接受。

这个认知在很长一段时间里让大家觉得：OCS 适合做”粗粒度的、相对静态的”网络拓扑管理，不适合深入到训练迭代的内部。

OFC 2026 的论文系统性地打破了这个认知。

M4F 系列：OCS 切入训练内部

来自 AIST（日本产业技术综合研究所）的 M4F 系列论文，是这次大会里 OCS 方向最密集的突破。

M4F.4——这篇论文演示了，在 expert/tensor/data 三种并行方式之间切换光路，overhead 小于 2 微秒。

2 微秒是什么概念？一轮 AllReduce 通信可能持续几十毫秒，2 微秒的切换开销，换算过来是 0.004%——完全可以忽略不计。

M4F.2 更进一步，提出了 “Hitless In-Job Partial TPE”（无损 job 内局部拓扑重配）的概念。

这个方案的核心逻辑是：训练 job 不需要整体暂停等待 OCS 重配。只有当前处于”不活跃状态”的光路才被重配；其他光路继续传输数据，完全不受影响（“hitless”，无损）。

这就好比一座城市在不影响正常交通的情况下，悄悄把某几条不拥堵的道路改成了单行线——既优化了路网，又没有堵塞任何人。

M4F.3 则研究了 OCS 与 AI 训练调度器的协同优化，把光网络的重配计划和训练 job 的通信计划做联合优化。

LLM 训练通信阶段时序图：Forward Pass / Backward Pass / AllReduce 与 OCS 切换窗口叠加 — 图 1：LLM 训练各阶段通信模式与 OCS 重配窗口的对应关系。OCS 在 AllReduce 阶段开始前触发，切换 overhead <2μs（M4F.4）

W4H 系列：从学术到工程验证

M4F 系列回答了”OCS 切换速度够不够快”这个问题。W4H 系列则回答了另一个更重要的问题：OCS 到底能给 AI 训练省多少？

W4H.4（来自北邮、中国联通、Infrawaves）的数据，是这次大会最被引用的数字之一。

他们搭建了一个 O/E 混合网络（OCS 负责大流量光路 + 电交换网络负责小流量包转发），与纯电交换网络进行了对比实验。结果：

指标	纯电交换	O/E 混合	变化
AllReduce 时间	基准	降低 50.3%	↓ 50.3%
带宽利用率	基准	提升 47.1%	↑ 47.1%
系统功耗	基准	降低 32.14%	↓ 32.14%

这三个数字，放到任何一家大型数据中心的运营成本计算里，都是非常有说服力的。

AllReduce 时间降低 50%，意味着训练任务整体的墙钟时间（Wall Clock Time）可以有显著压缩。对于动辄几周甚至几个月的大模型训练，这不是锦上添花——这是真实的算力节省。

W4H.3（来自 KDDI Research）则解决了另一个疑问：如果 OCS 网络跨越了较长距离（比如数据中心之间，30km），传播延迟会不会影响 AI Job 的完成时间？

答案是：不会。他们验证了，在引入 30km OCS 光路的情况下，AI Job Completion Time（JCT）没有出现显著下降——原因是 AI 训练的通信模式有足够的时序裕量，可以容纳适度的传播延迟。

W4H.5：最震撼的那个数字——600km

如果说 W4H.4 是功效验证，W4H.5 是这个系列里最具冲击力的一篇。

来自 ZTE 的团队，在真实网络环境中完成了以下实验：

GPU 数量：1024 张
模型：LLaMA2-70B
网络跨度：两个数据中心，相距 600 公里，通过 16λ×800 Gb/s OTN（光传送网）连接
并行策略：数据并行 + 流水线并行

实验结果：

数据并行效率损失 <5%
流水线并行效率损失 <1%

600 公里。不是仿真，不是实验室光纤盘绕，而是真实部署的光纤网络。

这个数字的意义远超技术本身。它说明：AI 集群不必全部挤在同一个园区。当一个园区的供电和散热达到极限，训练任务可以透明地扩展到几百公里外的第二个数据中心，而不会因网络延迟损失大部分效率。

对于中国的 AI 基础设施布局来说，这是个关键信号：京津冀、粤港澳、成渝三大算力枢纽之间的协同训练，不再是”理论上可行”，而是”OTN 已经可以支撑”。

为什么 AllReduce 恰好适合 OCS？

说到这里，值得停下来想一个问题：为什么偏偏是 AI 训练流量，让 OCS 有了用武之地？

答案在于 AI 训练流量的可预测性。

互联网流量是随机的——你无法知道下一秒哪个用户要发哪个请求。电子商务、视频流、社交网络的流量，从 OCS 的角度看，完全无法提前规划光路。

但 LLM 训练不一样。你知道这个 job 有多少 GPU，你知道它用的是什么并行策略（data/tensor/expert parallel），你知道它的迭代周期大概多长，你甚至可以通过 profiling 知道每一层的 AllReduce 发生在什么时间点。

这种结构化、周期性、可提前告知调度器的流量模式，是光电路交换几十年来等待的那类客户。

M4F.3 的研究方向正是如此：让 OCS 控制器和训练框架（PyTorch/NCCL）深度集成，训练框架在通信开始前几微秒通知 OCS 调度器需要什么拓扑，OCS 提前完成重配，通信开始时光路已经就位。

产业影响：谁从中受益？

OCS 进入 AI 训练生态，带来的产业变化是多维度的。

光开关硬件厂商是最直接的受益者。MEMS 光开关（Polatis、Agiltron）、硅光开关（Sicoya、Hengtong）、LCOS/AOM 系统——速度越快、端口数越多、损耗越低，竞争力越强。OFC 2026 的实验对开关速度的要求（<2μs overhead）为这个细分市场设定了新的标准门槛。

硅光平台厂商（Intel Foundry、TSMC SiPho、AIM Photonics）同样受益。高速硅光开关需要大规模光集成，OCS 系统的规模化部署是推动硅光量产的又一驱动力。

网络调度软件是最容易被忽略但最关键的一环。OCS 的价值需要和训练框架深度绑定才能发挥——控制面需要实时感知每个 GPU 的通信状态，并在微秒级别做出光路切换决策。这个软件栈目前几乎是空白，是系统集成商和软件公司的机会。

超大规模数据中心运营商（Hyperscalers）将是最终的需求端。Meta、Google、阿里、百度、字节这些公司，训练算力的 CapEx 和 OpEx 每年都以几十亿美元计。AllReduce 时间降低 50%，意味着同样的训练任务可以用更少的 GPU·小时完成——这换算成真金白银是非常大的数字。

OCS 的挑战：别忘了控制面

说了这么多 OCS 的好处，也要说说挑战。

控制面复杂度是最大的工程难题。要实现 <2μs 的切换 overhead，不只需要光开关本身快，还需要控制路径极短——从训练框架发出”我要通信了”的信号，到 OCS 完成重配，整个 round-trip 时间都必须控制在这个范围内。这要求训练框架、集合通信库（NCCL/MindSpore）和光控制器三者之间有非常紧密的软硬件协同，目前没有任何一个标准化接口。

可靠性和容错也是问题。光路一旦出现问题（光纤断裂、开关失效、耦合漂移），恢复时间必须足够快，否则整个训练 job 就会崩溃。传统网络的重路由机制需要在光域重新设计。

规模扩展：现在的实验规模是 1024 GPU，但下一代模型训练可能需要 100K GPU。光开关的端口数、损耗、串扰，在这个规模下的挑战和 1024 GPU 不在同一个量级。

这些挑战不是否定 OCS，而是说：从今天的实验室验证，到 5 年后的大规模产品化，中间还有很长的工程道路要走。

一个更大的图景

光交换的重要性，不只在于它让 AllReduce 快了一半。

更深层的意义在于：它让”网络拓扑可编程”这件事，第一次在真实的 AI 训练场景里变成了现实。

过去，网络拓扑是固定的——买了多少台交换机、怎么连接，就是什么拓扑，改起来要动物理线缆。OCS 让网络拓扑成了软件定义的对象：一个训练 job 可以申请”我需要全对全 AllReduce 拓扑”，另一个 job 可以申请”我需要 ring 拓扑”，网络调度器根据任务分配光路——就像操作系统分配 CPU 时间片一样。

这是光通信行业对计算架构演进做出的实质性回应，不只是”提供更多带宽”，而是理解计算的节奏，并主动配合。

这也是为什么这篇博客系列的第一篇，把 OCS 列为 AI 时代光互连革命的核心主线之一——它代表的不只是一种交换技术，而是光网络和 AI 计算之间，一种全新的协作关系的开始。

参考文献

论文编号	主题摘要
M4F.2	Hitless in-job 光路拓扑重配加速 LLM 训练（GPT-2 验证）
M4F.3	光交换与 AI 训练调度协同优化
M4F.4	Expert/Tensor/Data parallelism 之间 OCS 切换，overhead <2μs
W4H.3	跨集群 30km OCS 架构，不影响 AI Job Completion Time
W4H.4	O/E 混合网络：AllReduce ↓50.3%，带宽利用率 ↑47.1%，功耗 ↓32.14%
W4H.5	1024 GPU × LLaMA2-70B × 600km 跨 DC 训练，DP 效率损耗 <5%

OFC 2026 系列下一篇：《CPO 进入工程化深水区》——那里有比光交换更硬核的工程挑战：玻璃基板、外置激光源、以及”最后一厘米”的散热战争。