2023上半年回顾:自2023年2月以来,随着chatGPT的火爆,景气度从光模块传导到服务器、交换机等设备,市场对数据中心的算力网络的增长预期大幅提
升。今年上半年,通信板块大幅跑赢科创50、沪深300等指数。
展望下半年,我们认为Al依然是今年主线,长期来看,建议关注中国光模块产业链崛起机遇。
>大模型是一种新的生产力工具,来帮助我们更准确地认知世界和预测世界。大模型的出现是一系列的变革,我们看到不仅是800G光模块、HBM需求旺盛的现象,其背后是深度学习对于链上所有参与环节的突破,包括解决存储墙出现的HBM、解决算力墙出现的集群和分布式训练、解决通信墙而出现的网络架构革新、解决功率墙出现的液冷等等,是通信和电子一系列技术新一轮的变革。
>本轮光模块800G周期有何不同?网络架构变革是800G超预期的原因。光模块行业是一个周期成长的行业,本身遵循光摩尔定律,即每2-3年网络带宽翻倍,因此光模块公司的业绩往往跟随速率升级的周期节奏。而本轮800G周期和以往100G、400G的不同之处在于,不仅仅是速率升级,还有网络架构的变革。我们看到Al数据中心网络架构有两个变革:一个是从Spine-Leaf架构→Fat-tree架构;二是GPU AlI-to-all直连,这两种变革都额外地、大幅地增加了光模块需求。我们测算,由于使用Fat-tree的架构,DGX A100中GPU:光模块的比重将达到1:6,而GPU All-to-all直连是光模块增量最大的部分,使得GPU:光模块从1:2.5大幅提升至1:7。
>网络架构的变革的驱动力?传统适用于HPC的网络,无法满足大模型集群训练的带宽和时延需求。大模型训练的本质是将权重参数网络多次迭代,海量的数据因此需要不停地从存储和计算单元反复转移,需要至少数百万次的迭代,直到输出可接受的结果。而分布式训练需要GPU之间通信,使得Al/ML数据中心东西流量大增,流量模式也异于传统云计算。分布式训练的两种方式——数据并行(Data parallelism)和模型并行(Model parallelism),都涉及频繁的GPU间通信。无阻塞(Non-blocking)的网络,由于其不收敛的特点,可以提高网络效率,加快训练速度,这是专用于Al/ML训练的数据中心,其网络架构从Spine-leaf转到Fat-tree的原因。GPU本身为了解决存储墙而对HBM的采用,虽然使得存储带宽的大幅提升,但也进一步拉大了存储带宽和网络带宽的差距,使得网络带宽成为算力瓶颈,这是推动GPU进行all-to-all直连的原因。
未来,模型大型化的演进,会持续提升算力需求。
Al对算力增长的推动主要来自两个方面:1)更大规模的模型;2)多模态模型。HBM迭代加快,更高带宽的HBM3E有望今年底量产,将进一步推动网络带宽的提升。 算力、存储、网络是绑定关系,更高的算力、更大带宽的存储,必然需要升级网络。 第二代800G产品将采用200G PAM4,可以进一步提升带宽、降低功耗。在今年的3月举办的OFC上,包括II-VI等在内的头部光模块厂商都展出了基于200G PAM4方案的800G和1.6T光模块样品,产业落地逐步加快。
事实上,光模块已成为我国优势产业,有望尽享800G红利。
>近5年来,中国光模块厂商凭借强大的工程师红利,在与海外光模块厂商竞争中不断占据上风。2022年,合计七家光模块厂商进入全球前十,中际旭创更是凭借在数通领域的强大优势,与II-VI并列第一,连续两年成为全球光模块龙头。我们认为,未来中国光模块厂商优势稳固,在全球光模块产业链中的比重将继续提升。 上游器件&芯片国产化将有望加速。依托光模块的地位,上游器件&芯片的国产替代有望加速,国内主要光模块厂商扶持上游元器件的意愿明显。
我们认为,光模块产业链下一步可关注两个国产替代方向:
1)中高端激光芯片。10G DFB国产化相当成熟,25G DFB国产化加速,50G DFB和100G EML仍有非常大的空间。
2)TEC器件,光器件中价值量占比约13%,目前国产化程度低于光芯片以及陶瓷外壳,未来有望受益于国产替代+数据中心/激光雷达不断增长的激光芯片温控需求。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)