AI 集群正在重写光通信的底层逻辑——OFC 2026 深度观察
光通信行业的”气候变化”
每年的 OFC(光纤通信大会)都像一面镜子,照出全球光通信行业在想什么、在做什么、在担心什么。
2023 年的 OFC,主题词是”800G 商用化”。2024 年,行业开始密集讨论 CPO(共封装光学)和 LPO(线性可插拔光学)。到了 2026 年,你打开论文列表,映入眼帘的关键词是:scale-up、scale-out、scale-across、AllReduce、LLM 训练、光交换、Optics GPT。
这不是关键词的简单替换,这是一次根本性的叙事转变。
过去,光通信的自我定位很清楚:我是带宽的搬运工,我把数据从 A 搬到 B,越快越好,越远越好。运营商买的是容量,数据中心买的是成本和功耗。这套叙事运行了三十年,非常稳定。
但 AI 集群出现了。
一个训练 GPT-4 级别模型的集群,可能有几万张 GPU,分布在几十个机架乃至跨越几个数据中心。这些 GPU 不是各自独立工作,它们每隔几百毫秒就需要完成一次集体同步——把各自计算的梯度”汇聚”起来,更新模型参数,然后开始下一轮。这个操作叫 AllReduce。
AllReduce 的通信量是惊人的。它有强烈的阶段性(前向传播→反向传播→同步→下一轮)、突发性(在极短时间内爆发出巨大流量)、拓扑相关性(expert parallelism 需要某些节点间比另一些节点间有更高带宽)。
传统的网络设备——不管是以太网交换机还是 InfiniBand——面对这种流量,解法只有一个:堆带宽。更多端口、更高速率、更大 buffer。这条路走到今天,每年的功耗成本、硬件采购成本都在急速膨胀。
OFC 2026 给出的信号是:光通信终于找到了一个真正属于自己的新战场,而不只是被动提供带宽管道。
三条主线,一个共同指向
读完 OFC 2026 最重要的那一批论文,我归纳出三条主线。它们分别从不同维度切入,但最终都指向同一个方向:光互连要从被动适配计算系统,变为主动融入计算系统。
主线一:光交换开始懂 AI 训练
光电路交换(OCS)不是新技术。它的原理很简单:在物理层用全光开关直接建立端到端的光路,不经过电信号转换,延迟极低,带宽极高。
问题在于,OCS 的重配时间传统上是毫秒级别,而 AI 训练的通信切换可能需要微秒响应。所以过去很多人认为,OCS 只适合长时间、相对静态的流量,不适合动态训练。
OFC 2026 打破了这个认知。
M4F.4 这篇论文演示了:在 expert/tensor/data parallelism 之间切换光路,overhead 小于 2 微秒。这意味着 OCS 不再只能做”粗粒度拓扑”,而可以参与训练内部的通信相位管理。
更激进的是 M4F.2:提出了”job 内异步触发的无损部分拓扑重配”(hitless in-job partial TPE)。核心思想是:训练 job 不需要整体暂停,只有那些不活跃的光路才被重配,其他光路继续跑数据。实验结果显示,GPT-2 训练速度得到了有效提升。
W4H.4 则更直接地展示了数字:O/E 混合网络(光交换 + 电交换组合)和纯电交换相比,AllReduce 时间降低了 50.3%,带宽利用率提高了 47.1%,整体功耗降低了 32.14%。这三个数字,放在任何一家数据中心 CapEx/OpEx 的计算表里,都是非常有说服力的。
最让我印象深刻的是 W4H.5——一篇来自中国团队的实测论文。他们用 1024 张 GPU,在相距 600km 的两个数据中心之间,完成了 LLaMA2-70B 模型的分布式训练。数据并行效率损失 <5%,流水线并行效率损失 <1%。
600 公里。实际光纤,不是仿真。
这不是”光可以做 AI 互连”的概念验证,这是”光在 AI 互连里已经实用”的产业信号。
主线二:CPO 进入工程化深水区
如果说光交换是宏观架构层的革命,那 CPO(Co-Packaged Optics,共封装光学)就是微观封装层的革命。
CPO 的逻辑也很简单:在交换 ASIC 和光引擎之间,传统方式是”可插拔模块 + 铜线互连”,随着速率提升,铜线的损耗、串扰、功耗都急剧增加。CPO 把光引擎直接封装在 ASIC 旁边,铜线长度从几十厘米缩短到几毫米,信号损耗大幅降低。
但 CPO 的真正难点,从来不是”把硅光芯片做好”,而是一系列让人头疼的工程问题:
外置激光源功率不够用。 因为光要从外部激光器通过光纤传进 CPO 封装,再分发到几十甚至上百条光路,每次耦合都有损耗。W3E.1 这篇论文专门研究了超高输出功率的外置激光源——8 通道 TOSA 配合 16 通道 ELSFP 模块,把单个激光源的输出功率推到前所未有的高度。
光耦合精度要求极端严苛。 把光纤阵列对准硅光芯片,需要亚微米级别的对准精度。Th3C.2 展示了一种新路径:用内嵌波导的玻璃基板替代传统 PCB,硅光芯片通过倏逝耦合(evanescent coupling)和金凸点贴装在玻璃基板表面。目前已实现 2 dB 的光纤到芯片损耗,支持大规模扩展。
散热是永恒的噩梦。 光芯片挨着高功耗 ASIC,热密度惊人。我不展开细节,但这是 CPO 商业化最后的拦路虎之一。
Th3C.4 则描绘了更远的未来:从 CPO 到 Photonic Interposer,再到 Photonic Chiplets。类似于电芯片行业的 Chiplet 趋势,光子学也在走向”小芯片拼装”——不同功能的光子功能块(调制、路由、探测、激光)各自优化工艺,再通过先进封装集成在一起。这篇论文提到了目标:超 100 Tb/s,迈向 204.8 Tb/s 级别平台。
三星在 Tu2D.3 里公开了他们的 300mm 硅光平台。300mm 意味着与现有 CMOS 生产线兼容,意味着成本曲线随产量快速下降。这对整个行业的信号是:硅光正在从”光通信专属”走向”半导体通用制造”。
我的判断是:CPO 的量产时间点,取决于三个子问题谁先被解决:外置激光源的功率与可靠性、玻璃/硅氮基板的耦合良率、以及散热工程。 三者任何一个拖后腿,整个 CPO 的商业化时间表就会推迟。
主线三:材料战争正在白热化
“400G/lane 用什么材料做调制器?“——这个问题在 OFC 2026 有了比以往更激烈的答案。
硅 MZM(Mach-Zehnder Modulator)是目前主流。Th4A.4 展示了硅 MZM 实现 400G/lane PAM4 调制。优点:CMOS 兼容,可以用现有硅光平台直接制造。缺点:Vπ(半波电压)高达 4-6V,需要专用驱动 IC,功耗上去了。
TFLN(薄膜铌酸锂)是这两年最热的新材料。Th4A.2 报告了 110 GHz 带宽的 C 波段 LT(薄膜钽酸锂)调制器,实现了 768 Gbps 线路速率。更关键的是 Th4B.2——TFLN 光 DAC 直接用 CMOS 逻辑门驱动,不需要 SerDes 专用 IC。这被称为”driver-less”操作:用最低电压(约 1V)驱动调制器,448 Gbps PAM4 在 2km,1.2 Tbps 16-QAM 在 10km。这意味着什么?意味着把驱动电路的复杂度和功耗直接消除了一大块。
BTO(钛酸钡,Barium Titanate)是最大的黑马。Th4B.3 展示了 BTO 单片集成在商业硅光平台上,实现 net 1.6T(4×448 Gbps PAM4),用的是 3nm CMOS SerDes。BTO 的 Pockels 系数比铌酸锂高约 5 倍,理论上可以做到更低驱动电压、更高带宽。Th3J.4 则用 BTO 双偏振 IQ 调制器实现了 net 1 Tbps/λ 的 ZR 长距传输和 coherent-lite 数据中心网络。
这是什么概念?每个波长 1Tbps,用 BTO 器件。
但 BTO 的挑战也很清楚:与硅光平台的异质集成工艺尚未成熟,长期可靠性数据不足,量产路径还不明确。
我的判断是:这不是一场”赢者通吃”的战争,而是按场景分化共存的格局。
- 硅 MZM:短期 1-3 年,CPO/LPO 量产首选,因为工艺成熟
- TFLN/LT:中期 2-5 年,高端 pluggable、CPO engine 的主力,功耗优势突出
- BTO:长期潜力最大,但需要更多工程验证;如果能在 5 年内解决量产问题,可能重塑调制器格局
- EML(电吸收调制激光器):O 波段短距互连的稳固选手,整合度高
一个被低估的信号:AI 开始管理光网络
以上三条主线都是”光如何服务 AI”。但 OFC 2026 里还藏着一个反向信号:AI 正在接管光网络本身。
Th4C.1,标题是 “Optics GPT”:第一个专门为光通信预训练的基础大模型。它不是”把 ChatGPT 接上光通信文档库”,而是从底层预训练,理解光放大器、色散、OSNR、非线性效应这些领域概念的物理关系。这种垂直领域预训练的价值,懂 AI 的人应该清楚。
M3A.4 用 LLM 做光网络故障预测和主动维护。Th3B.1 和 Th3B.2 更有现实说服力——百度的生产数据,分析 AI 数据中心里大规模光模块的现场故障分布,AI 方法达到了 F1=0.894、准确率 92.5%。这不是实验室结果,这是真实运行中的工程验证。
M2E.3 展示了 AI-物理混合模型控制 EDFA(掺铒光纤放大器)的增益动态——传统做法是离线建模 + 手动调参,新做法是实时 AI 模型感知增益变化并自动反馈控制。
把这些放在一起看,光网络运维正在经历一次从”规则系统”到”模型系统”的跃迁。过去,光网络工程师是操作者——配置路由、调整增益、响应告警。未来,他们可能更像是”AI 训练师”——定义目标、提供数据、在模型出现异常时介入裁决。
这个变化比调制器材料的替换更难察觉,但影响面可能更广:它冲击的是 OSS/NMS 软件厂商,是网络自动化公司,是每一家靠”人工经验”而非”模型能力”竞争的网络设备厂商。
四个问题,评估你的光互连方案
读完 OFC 2026,我想提炼四个用来评估任何”AI 光互连”方案的核心问题:
1. 它解决的是 scale-up、scale-out 还是 scale-across?
Scale-up 是 GPU 机箱内部的连接(NVLink、CXL、光学 I/O 芯片间互连),带宽最高,距离最短。Scale-out 是机架间到 Pod 间的连接(1.6T 光模块、CPO),是目前主战场。Scale-across 是跨数据中心的训练连接(长距相干、OTN、HCF),是新兴战场。三个场景对延迟、带宽、功耗的要求完全不同。
2. 它把功耗从哪里省掉了?
是减少了电互连的损耗(CPO/LPO 主要贡献)?还是消除了 DSP(coherent-lite、driver-less TFLN)?还是减少了光交换中无用的电信号转换(OCS)?还是通过减少训练重传降低了总流量(AI 感知调度)?每一种节省方式背后,对应不同的产业链机会。
3. 它是否需要新的封装、测试、耦合、散热生态?
一项技术再先进,如果产业链配套不成熟,商业化就会延迟。BTO 调制器再优秀,如果找不到能量产的封装厂,也只能停在 demo 阶段。这个问题也是判断”哪些上游配套厂商值得关注”的入口。
4. 它能否和 AI 训练/推理调度形成闭环?
这是最难,也最有壁垒的维度。光交换 + 训练感知调度 = 比单纯堆带宽更高效的网络。数字孪生 + 光网络实时遥测 = 比人工运维更快的异常响应。能回答这个问题的方案,才真正站在 AI 光互连的主战场。
结尾:这是光通信的第二个青春
光通信诞生于上世纪 70 年代,第一次爆发是 1990 年代的互联网建设,用海量光纤把全球连接起来。第二次爆发是 2000 年代后的移动互联网,把视频流量从几 Gbps 推到几十 Tbps。
现在,AI 正在催生第三次爆发。但这次不一样的是:光通信不再只是”接受需求、被动响应”,而是开始以主动的姿态,和 AI 系统产生深度耦合——光交换懂得训练的节奏,调制器材料比拼谁更低功耗,CPO 把光推进芯片封装的最深处,AI 又回头来管理光网络本身。
这是一种新的共生关系。
OFC 2026 的 701 篇论文里,有几十篇值得反复精读,有几个数字值得记住:
- 50.3%:O/E 混合光网络降低 AllReduce 时间的幅度
- 600km:跨数据中心 LLaMA2-70B 实际训练距离
- 110 GHz:TFLN/LT 调制器带宽新纪录
- 1 Tbps/λ:BTO 调制器实现的单波长净速率
- 0.11 dB/km:空芯光纤在 1.55μm 的最新损耗记录
每一个数字背后,都是一群工程师把他们的最好工作写进了这些论文。他们在解决的问题,是 AI 时代最核心的基础设施难题之一:如何用更低的能耗、更低的延迟、更高的带宽密度,把分散的 GPU 连成一台巨大的思考机器。
光,一直是最快的。现在,它还要学会最聪明地被使用。
参考文献
| 论文编号 | 主题摘要 |
|---|---|
| M4B.6 | AI 互连 scale-up 技术综述 |
| M4F.2 | Hitless in-job 光路拓扑重配加速 LLM 训练(GPT-2) |
| M4F.3 | 光交换与 AI 训练调度协同优化 |
| M4F.4 | Expert/Tensor/Data parallelism 光路切换,overhead <2μs |
| W4H.3 | 跨集群 30km OCS 不影响 AI job 完成时间 |
| W4H.4 | O/E 混合网络:AllReduce ↓50.3%,功耗 ↓32.14% |
| W4H.5 | 1024 GPU × LLaMA2-70B × 600km 跨 DC 训练实测 |
| W3E.1 | 超高输出功率外置激光源(8ch TOSA + 16ch ELSFP) |
| Th3C.2 | 玻璃波导基板 CPO,倏逝耦合,光纤到芯片损耗 2dB |
| Th3C.4 | Photonic Chiplets,目标 >100Tb/s → 204.8Tb/s 平台 |
| Th4A.6 | TFLN Wafer-Level CPO Engine,带宽超 100GHz |
| Tu2D.3 | 三星 300mm 硅光平台(CMOS 兼容) |
| W1D.7 | LPO/NPO/CPO 电光协同设计综述 |
| Th4A.4 | 硅 MZM 实现 400G/lane PAM4 |
| Th4A.2 | TFLN/LT 调制器,110GHz 带宽,768Gbps 线路速率 |
| Th4B.2 | Driver-less TFLN 光 DAC,1.2Tbps 16-QAM @10km |
| Th4B.3 | BTO 单片集成商业硅光平台,net 1.6T(4×448Gbps) |
| Th3J.4 | BTO DP-IQM,1Tbps/λ ZR 长距 + coherent-lite DC |
| M2A.3 | 硅微环 200G O-band |
| Th1C.3 | TFLN 400G/lane for LPO/NPO/CPO |
| Th4A.1 | InP EA-DFB 阵列(EML,O-band 短距) |
| Th4C.1 | Optics GPT:首个光通信垂直预训练基础模型 |
| Th4C.2 | AI 驱动闭环波段保护优化 |
| M3A.4 | LLM 用于光网络故障预测与主动维护 |
| M3A.5 | 扩散模型用于光网络故障诊断 |
| M2E.3 | AI-物理混合模型实时控制 EDFA 增益动态 |
| Th3B.1 | AI 数据中心光模块现场故障分析(百度生产数据) |
| Th3B.2 | AI 运维光模块管理,F1=0.894,准确率 92.5% |
| Th1I.3 | GraphRAG Agent 用于光网络拓扑理解与自主操作 |
本文基于 OFC 2026 论文库(701 篇)分析整理。后续系列将深入展开:光交换架构、CPO 封装工程、TFLN/BTO 材料对比、空芯光纤、AI 驱动光网络运维——每个专题单独成篇。