推理算力行业深度:发展现状、竞争格局、发展趋势、产业链及相关公司深度梳理.pdf

1.芯片
(1)目前GPU为云端AI训练应用的首选,也有专门面向推理需求设计的GPU在云端训练场景,GPU兼顾通用性和高算力,同时具有完善的软件生态便于开发,目前占据主导。云端训练GPU常用的型号例如V10o、A100、H1oo,上述型号在多种比特位宽具有高算力表现,互连带宽性能也能满足集群分布式训练的需要。在云端推理场景,A100、H100等型号亦可应用,英伟达也设计了面向推理市场的T4、A10等GPU,这一类型号的性能相比同代旗舰有所下降,但仍具有良好的低精度比特位宽满足AI推理的需要,可以满足客户对能耗、成本的综合考虑。

带宽、互连速率的限制,使云端超大规模的模型推理选择A100、H100更优,而非T4、A10等推理卡。以GPT-3为例,OpenAI数据显示GPT-3模型1750亿参数对应超过350GB的GPU显存需求。假设参数规模与所需显存呈线性关系,且推理的中间参数量按1倍估算,则1万亿参数规模的大模型推理需要约4000GB显存,则需要50张A100(80GB)或者167张A10(24GB)。集群中的GPU数量越多意味着更复杂的互连要求,而且A10无法应用NVLink和NVSwitch技术,大量A10组成的集群仅依靠PCIe通信,互连带宽相比A100等显卡的劣势明显,进而可能导致模型推理的时效性不佳。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)