通信行业专题研究:百万卡算力之路:多DC分布式训练和DCI需求增长.pdf

海外科技巨头积极布局多D0分布式训练
关于AI大模型训练在什么阶段需要DGI联接,需要多少DCI带宽,我们认为不同的互联网公司,国为IDC资源不同、业务模型不同,会有较大的配置差异。但是Meta和Google已经开始了多DC分布式训练,其中Google的Gemimi 1 UItra就是通过多DC的分布式训维实现的。谷歌日前有两个主要的多数据中心区域,分别位于使直使州和发荷华州/内布推斯加州。0penAI和微软更加雄心勃勃,计划将各个超大型园区互连在一起起来,并在全国范围内进行大规模的分布式训练
分布式训练给网络带来挑战
AI训练步入十万卡时代,跨DC协同训练对网络带来批践。(1)AI训练对网络去
包的敏感度高。(2)大象流会导政网络中的传统基于五元组的负载分担方法失效,键路负载不均街,降低网络使用率。(3)在万卡集群中,极端情况下流量瞬时开发可达上十Tbos.日前,十公里的跨机楼开行训练算效损失可低于5%,具备可行性,未来百公里级,十公里级的跨地域并行训练欲将损失控制在10%以下,除需建设长距离超宽DGI网络之外,还涉及模型切分策略、集命通估算法、无损网络技术等。400G ZR相干技术优势明显,ZR光模块需求有望增长
400G ZR相千光学技术有望在DGI中取代传恍的波分复用(WOW)系洗。相比于传统的WDM系统,4006 ZR系统更加简活,主要有MD/DEMUX,开采厢可调谐激光器的相千光模块,直接放在客户侧的交换机/路曲器上。根据LightCoumting的预测,2024-2028年,4000 ZR,ZR+的光模块保持增长。产品价值量方两,根据LightCoumnting预测,2023年4000 ZR的价格为3230美元,2024年8000 ZR的价格为4800美元
建议关注DCI产业链和400G/800G ZR供应商
海外科技巨头积权布局多DC分布式训维,我们认为AI算力部署对网络的需求正在向DGI场景扩散,有望带动DCI市场的高速增长。我们建议关注:国内OTN厂商:中兴通讯,烽火通估、光迅科技:有4006/8000 ZR产品布局的德科立,中际旭创、新易盛、华工科技:配酸锂调制供应商:光库科技
风陛挑示:AI产业发展不及预期风险、算力需求不及预期风险、披术发展不及预期风险、市场竟事加剧风险。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)