AI 集群正在重写光通信的底层逻辑——OFC 2026 深度观察

光通信行业的”气候变化”

每年的 OFC（光纤通信大会）都像一面镜子，照出全球光通信行业在想什么、在做什么、在担心什么。

2023 年的 OFC，主题词是”800G 商用化”。2024 年，行业开始密集讨论 CPO（共封装光学）和 LPO（线性可插拔光学）。到了 2026 年，你打开论文列表，映入眼帘的关键词是：scale-up、scale-out、scale-across、AllReduce、LLM 训练、光交换、Optics GPT。

这不是关键词的简单替换，这是一次根本性的叙事转变。

过去，光通信的自我定位很清楚：我是带宽的搬运工，我把数据从 A 搬到 B，越快越好，越远越好。运营商买的是容量，数据中心买的是成本和功耗。这套叙事运行了三十年，非常稳定。

但 AI 集群出现了。

一个训练 GPT-4 级别模型的集群，可能有几万张 GPU，分布在几十个机架乃至跨越几个数据中心。这些 GPU 不是各自独立工作，它们每隔几百毫秒就需要完成一次集体同步——把各自计算的梯度”汇聚”起来，更新模型参数，然后开始下一轮。这个操作叫 AllReduce。

AllReduce 的通信量是惊人的。它有强烈的阶段性（前向传播→反向传播→同步→下一轮）、突发性（在极短时间内爆发出巨大流量）、拓扑相关性（expert parallelism 需要某些节点间比另一些节点间有更高带宽）。

传统的网络设备——不管是以太网交换机还是 InfiniBand——面对这种流量，解法只有一个：堆带宽。更多端口、更高速率、更大 buffer。这条路走到今天，每年的功耗成本、硬件采购成本都在急速膨胀。

OFC 2026 给出的信号是：光通信终于找到了一个真正属于自己的新战场，而不只是被动提供带宽管道。

三条主线，一个共同指向

AI 集群光互连三层结构：Scale-Up（GPU 机箱内）/ Scale-Out（机架间）/ Scale-Across（跨数据中心） — 图 1：AI 集群的光互连从内到外分为三个层次，每层对带宽、延迟、功耗的要求截然不同

读完 OFC 2026 最重要的那一批论文，我归纳出三条主线。它们分别从不同维度切入，但最终都指向同一个方向：光互连要从被动适配计算系统，变为主动融入计算系统。

OFC 2026 三大主线：光交换懂 AI 训练 / CPO 封装深水区 / AI 驱动光网络 — 图 2：三条主线收束于同一个核心命题——光互连的系统化

主线一：光交换开始懂 AI 训练

光电路交换（OCS）不是新技术。它的原理很简单：在物理层用全光开关直接建立端到端的光路，不经过电信号转换，延迟极低，带宽极高。

问题在于，OCS 的重配时间传统上是毫秒级别，而 AI 训练的通信切换可能需要微秒响应。所以过去很多人认为，OCS 只适合长时间、相对静态的流量，不适合动态训练。

OFC 2026 打破了这个认知。

M4F.4 这篇论文演示了：在 expert/tensor/data parallelism 之间切换光路，overhead 小于 2 微秒。这意味着 OCS 不再只能做”粗粒度拓扑”，而可以参与训练内部的通信相位管理。

更激进的是 M4F.2：提出了”job 内异步触发的无损部分拓扑重配”（hitless in-job partial TPE）。核心思想是：训练 job 不需要整体暂停，只有那些不活跃的光路才被重配，其他光路继续跑数据。实验结果显示，GPT-2 训练速度得到了有效提升。

W4H.4 则更直接地展示了数字：O/E 混合网络（光交换 + 电交换组合）和纯电交换相比，AllReduce 时间降低了 50.3%，带宽利用率提高了 47.1%，整体功耗降低了 32.14%。这三个数字，放在任何一家数据中心 CapEx/OpEx 的计算表里，都是非常有说服力的。

最让我印象深刻的是 W4H.5——一篇来自中国团队的实测论文。他们用 1024 张 GPU，在相距 600km 的两个数据中心之间，完成了 LLaMA2-70B 模型的分布式训练。数据并行效率损失 <5%，流水线并行效率损失 <1%。

600 公里。实际光纤，不是仿真。

这不是”光可以做 AI 互连”的概念验证，这是”光在 AI 互连里已经实用”的产业信号。

主线二：CPO 进入工程化深水区

如果说光交换是宏观架构层的革命，那 CPO（Co-Packaged Optics，共封装光学）就是微观封装层的革命。

CPO 的逻辑也很简单：在交换 ASIC 和光引擎之间，传统方式是”可插拔模块 + 铜线互连”，随着速率提升，铜线的损耗、串扰、功耗都急剧增加。CPO 把光引擎直接封装在 ASIC 旁边，铜线长度从几十厘米缩短到几毫米，信号损耗大幅降低。

但 CPO 的真正难点，从来不是”把硅光芯片做好”，而是一系列让人头疼的工程问题：

外置激光源功率不够用。 因为光要从外部激光器通过光纤传进 CPO 封装，再分发到几十甚至上百条光路，每次耦合都有损耗。W3E.1 这篇论文专门研究了超高输出功率的外置激光源——8 通道 TOSA 配合 16 通道 ELSFP 模块，把单个激光源的输出功率推到前所未有的高度。

光耦合精度要求极端严苛。 把光纤阵列对准硅光芯片，需要亚微米级别的对准精度。Th3C.2 展示了一种新路径：用内嵌波导的玻璃基板替代传统 PCB，硅光芯片通过倏逝耦合（evanescent coupling）和金凸点贴装在玻璃基板表面。目前已实现 2 dB 的光纤到芯片损耗，支持大规模扩展。

散热是永恒的噩梦。 光芯片挨着高功耗 ASIC，热密度惊人。我不展开细节，但这是 CPO 商业化最后的拦路虎之一。

Th3C.4 则描绘了更远的未来：从 CPO 到 Photonic Interposer，再到 Photonic Chiplets。类似于电芯片行业的 Chiplet 趋势，光子学也在走向”小芯片拼装”——不同功能的光子功能块（调制、路由、探测、激光）各自优化工艺，再通过先进封装集成在一起。这篇论文提到了目标：超 100 Tb/s，迈向 204.8 Tb/s 级别平台。

三星在 Tu2D.3 里公开了他们的 300mm 硅光平台。300mm 意味着与现有 CMOS 生产线兼容，意味着成本曲线随产量快速下降。这对整个行业的信号是：硅光正在从”光通信专属”走向”半导体通用制造”。

我的判断是：CPO 的量产时间点，取决于三个子问题谁先被解决：外置激光源的功率与可靠性、玻璃/硅氮基板的耦合良率、以及散热工程。 三者任何一个拖后腿，整个 CPO 的商业化时间表就会推迟。

主线三：材料战争正在白热化

“400G/lane 用什么材料做调制器？“——这个问题在 OFC 2026 有了比以往更激烈的答案。

硅 MZM（Mach-Zehnder Modulator）是目前主流。Th4A.4 展示了硅 MZM 实现 400G/lane PAM4 调制。优点：CMOS 兼容，可以用现有硅光平台直接制造。缺点：Vπ（半波电压）高达 4-6V，需要专用驱动 IC，功耗上去了。

TFLN（薄膜铌酸锂）是这两年最热的新材料。Th4A.2 报告了 110 GHz 带宽的 C 波段 LT（薄膜钽酸锂）调制器，实现了 768 Gbps 线路速率。更关键的是 Th4B.2——TFLN 光 DAC 直接用 CMOS 逻辑门驱动，不需要 SerDes 专用 IC。这被称为”driver-less”操作：用最低电压（约 1V）驱动调制器，448 Gbps PAM4 在 2km，1.2 Tbps 16-QAM 在 10km。这意味着什么？意味着把驱动电路的复杂度和功耗直接消除了一大块。

BTO（钛酸钡，Barium Titanate）是最大的黑马。Th4B.3 展示了 BTO 单片集成在商业硅光平台上，实现 net 1.6T（4×448 Gbps PAM4），用的是 3nm CMOS SerDes。BTO 的 Pockels 系数比铌酸锂高约 5 倍，理论上可以做到更低驱动电压、更高带宽。Th3J.4 则用 BTO 双偏振 IQ 调制器实现了 net 1 Tbps/λ 的 ZR 长距传输和 coherent-lite 数据中心网络。

这是什么概念？每个波长 1Tbps，用 BTO 器件。

但 BTO 的挑战也很清楚：与硅光平台的异质集成工艺尚未成熟，长期可靠性数据不足，量产路径还不明确。

我的判断是：这不是一场”赢者通吃”的战争，而是按场景分化共存的格局。

硅 MZM：短期 1-3 年，CPO/LPO 量产首选，因为工艺成熟
TFLN/LT：中期 2-5 年，高端 pluggable、CPO engine 的主力，功耗优势突出
BTO：长期潜力最大，但需要更多工程验证；如果能在 5 年内解决量产问题，可能重塑调制器格局
EML（电吸收调制激光器）：O 波段短距互连的稳固选手，整合度高

一个被低估的信号：AI 开始管理光网络

以上三条主线都是”光如何服务 AI”。但 OFC 2026 里还藏着一个反向信号：AI 正在接管光网络本身。

Th4C.1，标题是 “Optics GPT”：第一个专门为光通信预训练的基础大模型。它不是”把 ChatGPT 接上光通信文档库”，而是从底层预训练，理解光放大器、色散、OSNR、非线性效应这些领域概念的物理关系。这种垂直领域预训练的价值，懂 AI 的人应该清楚。

M3A.4 用 LLM 做光网络故障预测和主动维护。Th3B.1 和 Th3B.2 更有现实说服力——百度的生产数据，分析 AI 数据中心里大规模光模块的现场故障分布，AI 方法达到了 F1=0.894、准确率 92.5%。这不是实验室结果，这是真实运行中的工程验证。

M2E.3 展示了 AI-物理混合模型控制 EDFA（掺铒光纤放大器）的增益动态——传统做法是离线建模 + 手动调参，新做法是实时 AI 模型感知增益变化并自动反馈控制。

把这些放在一起看，光网络运维正在经历一次从”规则系统”到”模型系统”的跃迁。过去，光网络工程师是操作者——配置路由、调整增益、响应告警。未来，他们可能更像是”AI 训练师”——定义目标、提供数据、在模型出现异常时介入裁决。

这个变化比调制器材料的替换更难察觉，但影响面可能更广：它冲击的是 OSS/NMS 软件厂商，是网络自动化公司，是每一家靠”人工经验”而非”模型能力”竞争的网络设备厂商。

四个问题，评估你的光互连方案

读完 OFC 2026，我想提炼四个用来评估任何”AI 光互连”方案的核心问题：

1. 它解决的是 scale-up、scale-out 还是 scale-across？

Scale-up 是 GPU 机箱内部的连接（NVLink、CXL、光学 I/O 芯片间互连），带宽最高，距离最短。Scale-out 是机架间到 Pod 间的连接（1.6T 光模块、CPO），是目前主战场。Scale-across 是跨数据中心的训练连接（长距相干、OTN、HCF），是新兴战场。三个场景对延迟、带宽、功耗的要求完全不同。

2. 它把功耗从哪里省掉了？

是减少了电互连的损耗（CPO/LPO 主要贡献）？还是消除了 DSP（coherent-lite、driver-less TFLN）？还是减少了光交换中无用的电信号转换（OCS）？还是通过减少训练重传降低了总流量（AI 感知调度）？每一种节省方式背后，对应不同的产业链机会。

3. 它是否需要新的封装、测试、耦合、散热生态？

一项技术再先进，如果产业链配套不成熟，商业化就会延迟。BTO 调制器再优秀，如果找不到能量产的封装厂，也只能停在 demo 阶段。这个问题也是判断”哪些上游配套厂商值得关注”的入口。

4. 它能否和 AI 训练/推理调度形成闭环？

这是最难，也最有壁垒的维度。光交换 + 训练感知调度 = 比单纯堆带宽更高效的网络。数字孪生 + 光网络实时遥测 = 比人工运维更快的异常响应。能回答这个问题的方案，才真正站在 AI 光互连的主战场。

结尾：这是光通信的第二个青春

光通信诞生于上世纪 70 年代，第一次爆发是 1990 年代的互联网建设，用海量光纤把全球连接起来。第二次爆发是 2000 年代后的移动互联网，把视频流量从几 Gbps 推到几十 Tbps。

现在，AI 正在催生第三次爆发。但这次不一样的是：光通信不再只是”接受需求、被动响应”，而是开始以主动的姿态，和 AI 系统产生深度耦合——光交换懂得训练的节奏，调制器材料比拼谁更低功耗，CPO 把光推进芯片封装的最深处，AI 又回头来管理光网络本身。

这是一种新的共生关系。

OFC 2026 的 701 篇论文里，有几十篇值得反复精读，有几个数字值得记住：

50.3%：O/E 混合光网络降低 AllReduce 时间的幅度
600km：跨数据中心 LLaMA2-70B 实际训练距离
110 GHz：TFLN/LT 调制器带宽新纪录
1 Tbps/λ：BTO 调制器实现的单波长净速率
0.11 dB/km：空芯光纤在 1.55μm 的最新损耗记录

每一个数字背后，都是一群工程师把他们的最好工作写进了这些论文。他们在解决的问题，是 AI 时代最核心的基础设施难题之一：如何用更低的能耗、更低的延迟、更高的带宽密度，把分散的 GPU 连成一台巨大的思考机器。

光，一直是最快的。现在，它还要学会最聪明地被使用。

参考文献

论文编号	主题摘要
M4B.6	AI 互连 scale-up 技术综述
M4F.2	Hitless in-job 光路拓扑重配加速 LLM 训练（GPT-2）
M4F.3	光交换与 AI 训练调度协同优化
M4F.4	Expert/Tensor/Data parallelism 光路切换，overhead <2μs
W4H.3	跨集群 30km OCS 不影响 AI job 完成时间
W4H.4	O/E 混合网络：AllReduce ↓50.3%，功耗 ↓32.14%
W4H.5	1024 GPU × LLaMA2-70B × 600km 跨 DC 训练实测
W3E.1	超高输出功率外置激光源（8ch TOSA + 16ch ELSFP）
Th3C.2	玻璃波导基板 CPO，倏逝耦合，光纤到芯片损耗 2dB
Th3C.4	Photonic Chiplets，目标 >100Tb/s → 204.8Tb/s 平台
Th4A.6	TFLN Wafer-Level CPO Engine，带宽超 100GHz
Tu2D.3	三星 300mm 硅光平台（CMOS 兼容）
W1D.7	LPO/NPO/CPO 电光协同设计综述
Th4A.4	硅 MZM 实现 400G/lane PAM4
Th4A.2	TFLN/LT 调制器，110GHz 带宽，768Gbps 线路速率
Th4B.2	Driver-less TFLN 光 DAC，1.2Tbps 16-QAM @10km
Th4B.3	BTO 单片集成商业硅光平台，net 1.6T（4×448Gbps）
Th3J.4	BTO DP-IQM，1Tbps/λ ZR 长距 + coherent-lite DC
M2A.3	硅微环 200G O-band
Th1C.3	TFLN 400G/lane for LPO/NPO/CPO
Th4A.1	InP EA-DFB 阵列（EML，O-band 短距）
Th4C.1	Optics GPT：首个光通信垂直预训练基础模型
Th4C.2	AI 驱动闭环波段保护优化
M3A.4	LLM 用于光网络故障预测与主动维护
M3A.5	扩散模型用于光网络故障诊断
M2E.3	AI-物理混合模型实时控制 EDFA 增益动态
Th3B.1	AI 数据中心光模块现场故障分析（百度生产数据）
Th3B.2	AI 运维光模块管理，F1=0.894，准确率 92.5%
Th1I.3	GraphRAG Agent 用于光网络拓扑理解与自主操作

本文基于 OFC 2026 论文库（701 篇）分析整理。后续系列将深入展开：光交换架构、CPO 封装工程、TFLN/BTO 材料对比、空芯光纤、AI 驱动光网络运维——每个专题单独成篇。