今天这篇文章,我们来聊一个最近非常火的光通信概念——lpo。
近年来,光通信产业的发展势头很猛。
在5g、宽带中国、东数西算等国家战略的持续刺激下,国内光通信技术取得了巨大突破,光基础设施也有了质的飞跃。
特别是今年,aigc大模型爆火,智算和超算崛起,更是带动了光通信的新一波发展热潮。骨干网400g即将全面落地,数据中心800g和1.6t也跃跃欲试。
ospf的演进(来源:arista network)
光通信演进的挑战
其实,光通信的技术迭代,并不是简单的数字翻倍。
进入400g阶段后,我们要解决的问题,不仅仅是速率的提升,更包括高速率所带来的功耗和成本问题。
速率提升就像汽车运货。当运载的货物越来越重,就需要升级发动机。而发动力的排量越大,油耗就越大,发动机价格和油费也会越多。
我们就以光模块为例。
作为光网络的关键器件,也是用得最多的器件,光模块一直以来都是行业关注的焦点。它的功耗和价格,和用户采购意愿息息相关。
早在2007年的时候,一个万兆(10gbps)的光模块,功率才1w左右。
随着40g、100g、400g、800g的迭代,光模块的功耗一路飙升,直逼30w。
要知道,一个交换机可不止一个光模块。满载的话,往往就有几十个光模块(假如有48个,就是48×30=1440w)。
一般来说,光模块的功耗大约占整机功耗的40%以上。这就意味着,整机的功耗极大可能会超过3000w。
光通信设备的能耗激增,也给整个数据中心的能耗及成本带来了巨大的压力,极不利于通信网络的双碳目标。
相比2010年,光器件能耗将增加26倍。(图片来自思科)
为了解决光通信速率攀升带来的能耗问题,行业进行了大量的技术探索。
去年很火的cpo,就是pg电子直营网的解决方案之一。
cpo我之前专门进行过介绍(链接:到底什么是npo/cpo?),这里就不再详细讲了。
今年,在cpo之外,行业又提出了一个新方案,这就是——lpo。
什么是lpo
lpo,英文全称叫linear-drive pluggable optics,即线性驱动可插拔光模块。
从名字可以看出,它是一种光模块封装技术。
所谓“可插拔(pluggable)”,我们平时看到的光模块,都是可插拔的。
如下图所示,交换机上有光模块的端口,把对应的光模块插进去,就能插光纤了。如果坏了,也可以换。
lpo强调“可插拔”,是为了和cpo方案相区分。cpo方案里,光模块是不可以插拔的。光模块(光引擎)被移动到了距离交换芯片更近的位置,直接“绑”在一起了。
那么,lpo和传统光模块的关键区别,就在于线性驱动(linear-drive)了。
所谓“线性驱动”,是指lpo采用了线性直驱技术,光模块中取消了dsp(数字信号处理)/cdr(时钟数据恢复)芯片。
问题来了——什么是线性直驱呢?dsp发挥什么作用?为什么可以被取消?取消之后,会带来什么影响?
这里,我们还是先从光模块的基本架构开始讲起。
光模块传输,就是电信号变成光信号,光信号又变成电信号的过程。
在发送端,信号经过数模转换(dac),从数字信号变成模拟信号。在接收端,模拟信号经过模数转换(adc),又变成数字信号。
一顿操作下来,得到的数字信号就有点乱,有点失真。这时候,需要dsp,对数字信号进行“修复”。
dsp就是一个跑算法的芯片。它拥有数字时钟恢复功能、色散补偿功能(去除噪声、非线性干扰等因素影响),可以对抗和补偿失真,降低失真对系统误码率的影响。
dsp的各种补偿和估算
dsp各模块的作用
(注意:dsp这个东西,也不是所有的传统光模块都有。但是,在高速光模块中,对信号要求高,所以基本需要dsp。)
除了dsp之外,光模块中主要的电芯片还包括激光驱动器(ldd)、跨阻放大器(tia)、限幅放大器(la)、时钟数据恢复芯片(cdr,clock and data recovery)等。
cdr也是用于数据还原。它从接收到的信号中提取出数据序列,并且恢复出与数据序列相对应的时钟时序信号,从而还原接收到的具体信息。
dsp的功能很强大。但是,它的功耗和成本也很高。
例如,在400g光模块中,用到的7nm dsp,功耗约为4w,占到了整个模块功耗的50%左右。
光模块的功耗组成
从成本的角度来看,400g光模块中,dsp的bom(bill of materials,物料清单)成本约占20-40%。
lpo方案,就是把光模块中的dsp/cdr芯片干掉,将相关功能集成到设备侧的交换芯片中。
光模块中,只留下具有高线性度的driver(驱动芯片)和tia(trans-impedance amplifier,跨阻放大器),并分别集成ctle(continuous time linear equalization,连续时间线性均衡)和eq(equalization,均衡)功能,用于对高速信号进行一定程度的补偿。
如下图所示:
lpo的优点
lpo的优点,归纳来说,就是:低功耗、低成本、低延时、易维护。
低功耗
没有了dsp,功耗肯定是下降了。
根据macom的数据,具有dsp功能的800g多模光模块的功耗可超过13w,而利用macom pure drive技术的800g多模光模块功耗低于4w。
低成本
这个也不用说了。前面提到dsp的bom成本约占20-40%,这个就没有了。
driver和tia集成了eq,成本略有增加,但整体还是下降的。
有业界机构分析:800g光模块中,bom成本约为600~700美金,dsp芯片的成本约为50~70美金。driver和tia里集成了eq功能,成本会增加3~5美金。算下来,系统总成本可以下降大约8%,大约50~60美金。
值得一提的是,dsp也是博通、inphi等少数厂商所掌握的技术。取消了dsp,从某种程度上来说,也减少了对少数厂商的依赖。
低时延
没有了dsp,减少了一个处理过程,数据的传输时延也随之下降。
这个优点,对于ai计算和超级计算场景尤为重要。
易维护
这是相对cpo方案来说的。
cpo方案中,如果系统中任何一个器件坏了,就要下电,把整个板子换掉,维护起来很不方便。
lpo的封装没有显著改变,支持热插拔,简化了光纤布线和设备维护,使用上更加方便。
lpo的当前挑战
通信距离短
去掉dsp,当然还是有代价的。tia和driver芯片并不能完全替代dsp,所以,会导致系统的误码率提升。误码率高了,传输距离自然就短了。
行业普遍认为,lpo只适用于特定的短距离应用场景。例如,数据中心机柜内服务器到交换机的连接,以及数据中心机柜间的连接等。
发展初级的lpo,连接距离从几米到几十米。未来,可能会拓展到500米以内。
标准化刚起步
目前,lpo的标准化还处于早期阶段,在互联互通上可能会存在一些挑战。
对于企业来说,如果采用lpo,那么,需要具备一定的技术能力,能够制定技术规格和方案,能够探索设备和模块的边界条件,能够进行大量的集成、互联互通测试。
换言之,lpo目前更适合较为封闭和供应商单一的系统。如果采用多供应商,自己又没有实力驾驭,那么,可能存在“问题较难界定,相互扯皮”的问题,还不如使用传统dsp方案。
此外,也有专家指出,lpo给系统侧的电通道设计带来了一定挑战。目前serdes主流规格是112g,很快将升级到224g。专家们认为,lpo没办法跟上224g serdes的要求。
lpo的产业化进展
lpo方案其实之前就有企业提出过,但是因为技术限制,没有做出什么成果。
今年的ofc大会上,lpo再次被提出,很快成为行业关注的焦点。
aws、meta、microsoft、google等都表示了对lpo的兴趣。许多光通信巨头也在研发方面投入了资源。目前高线性tia及驱动器的主要供应商有macom、semtech、 maxlinear等。
根据预测,到2024年将实现大规模商业化。该行业较为乐观的推断,未来lpo可以占据市场份额的一半。较为保守的推断,到2026年,cpo/lpo的比例将达到30%左右。
结语
lpo是一种平衡和妥协的技术。它适应特定的应用场景(短距离),放弃了dsp/cdr,从而导致性能的轻微损失(ber差)。然而,它也减少了电力消耗,成本和延迟。虽然它比cpo出现得晚,但它的部署速度可以做到比cpo快。它的优点和缺点同cpo相比如下: