国产算力三问三答系列之一:万卡集群对AI意味着什么.pdf

报告要点
万卡集群是指由一万张及以上的计算加速卡(如GPU、TPU或其他专用AI加速芯片)组成的集群式的高性能计算系统,主要用来训练当前参数和训练数据量超来越庞大的大模型。在AI算力领域,全球大模型军备竟赛背景下,全球万卡集群趋势凸显,Seaing Law不断得到验证,更大和先进的集群能及时对市场趋势作出反应,快速进行迭代训练,实现大模型技术上的追赶和领先行间距,国产万卡集群或逐渐成熟,建设重点关注集群技术变革新方向总览全球,万卡集群趋势越发凸显
什么是万卡集群?参考产业界认知,一般而言,万卡集群是指由一万张及以上的计算加速卡(如GPU、TPU或其他专用AI加速芯片)组成的集群式的高性能计算系统,主要用来训练当前参数和训练数据量越来越庞大的大模型。这种集群充分整合高性能GPU计算、高性能存储以及网络、智算平台等关键技术,将各类底层基础设施整合成为一合“超级计算机”,可支持干亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代升级。
在AI算力领域,全球万卡集群趋势凸显。1)国际市场,OpenAI、Google、Meta等科技巨头,都争相部署万卡集群,用来支撑其在基座大模型及生态服务等方面的技术创新。2)在国内,运营商、头部互联网大厂、大型AI研发企业等均在万卡集群的建设和使用过程中不断推动技术革新。
军备竞赛,万卡集群是支撑AIGC基石
自ChalGPT引爆大模型A后,大模型步入了快速发展期,“干模大战”,行业百花齐放,过程中ScalingLaw不断得到验证,大模型能力持续提升。大模型所使用的数据量和参数规模呈现“指数级”增长,同时随着Mixtureof Experts(Mo日等先进模型结构的出现,模型参数迈入万亿规模。模型大小和训练数据大小成为决定模型能力的关键因素。在同等模型参数和数据集下,集群训练时间有望显著缩短。更大和先进的集群能及时对市场趋势作出反应,快速进行迭代训练。整体上超万卡集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并及时对市场趋势作出应对,实现大模型技术上的追赶和领先。
国产万卡集群突破支撑我国AIGC追赶
持峡迫赶,国产万卡集群或逐渐成熊。在国内,通信运营商、头部互联网、大型AI研发企业等均在万卡集群的建设和使用过程中不断推动技术革新,支撑国内A大模型训练底座。
集群互联和液冷是万卡集群相对传统小规模算力重要技术整异。万卡集群需进一步解决超大规模算力组网、集群效能捉升、多元异构算力生态等问题。与此同时从技术维度,我们认为也会有三个新的技术趋势是万卡集群实现过程中的捉升:1)万卡集群的计算效能捉升需要从单芯片能力捉升、超越单机8卡的超节点技术、服务器内卡间通信效率捉升等多方面系统推进;2)大规模、大带宽、低时延、高可靠的通信网络是万卡集群智算中心能正常高效工作关键;3)万卡集群智算中心具备高密度高能耗的典型特点,通过液冷等新技术节能也是重要方向。
在国产算力整体高景气高确定下产业背景下,我们认为当前时点迎来国产万卡集团突破期,看好全产业链机遇的同时,建议重点关注产业趋势变化带来新的结构性投资机会,重点关注集群化和液冷等新兴变化方向。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)