1.1 HBM高带克、低功耗优势显著,缓解内存墙问题
存储带宽提升速度慢于算力提升速度。大模型的训练可以简化为2步:
1)浮点运算(FLOPS),运行矩阵乘法,2)存储(带宽),等待数据或者计算资源。
过去大模型的训练时间主要受限于算力,英伟达等GPU厂商通过利用摩尔定律缩减制程、改变架构等方式,GPU的浮点运算能力大幅提高但对应的存储带宽增速慢于GPU算力增长速度。如英伟达H100相比
A100,FP32算力从19.5到66.9tlops捉升3倍+,但带宽从2039GB/s
到3.35TB/s仅提升1.5倍。AI芯片需要处理大量并行数据,要求高算力和大带宽,算力越强、每秒处理数据的速度越快,而带宽越大、每秒可访问的数据越多,算力强码主要由AI芯片决定,带宽由存储器决定,存力是限制AI芯片性能的瓶频之一.AI芯片需要高带宽、低能耗,同时在不占用面积的情况下可以扩展容量的存储器。
上世纪40年代开始计算机使用冯诺伊受架构——存算分离,即处理器和存储器相互独立,两者通过总线连接。
1)存算分离,数据存算间传输造成延迟、处理器从外部存储中调取数据,计算完成后再传输到内存中,一来一回都会造成延迟。
2)数据在多级存储间传输。为了捉升速度,冯诺依受架构对存储进行分级,越往外的存储介质密度越大。速度越慢,越往内的存储密度越小,速度越快,因此数据需要在多级存储之间搬运,能耗大。通常第一级存储是速度最快、容量低的以SRAM为形式的片上缓存,第二级是传统DDR。
3)存储制程推进慢于逻辑。目前DRAM制程最先进仍在10-15nm左右,而逻辑制程已进入5nm以下,主要是因存储器制程缩小难度更大。以上三点带来“存储墙”和功耗墙问题,影响处理器性能:1)数据的传输量小、速度慢,造成延迟,2)数据的传输功耗大(读取功耗随着存储器密度增大而增大),因此存储器的性能发展方向为更大带宽、更低功耗。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)