通信
AI算力的ASIC之路——从以太坊矿机说;
近期关于AI算力的GPU与ASIC路线讨论渐多,从推理角度看,ASIC在成本端优势明显,而GPU在通用性及生态上更胜一筹。若干年前,以太坊矿机也经历了从GPU到ASIC的选代,从算力发展角度给我们诸多启发。
天下芯片,通久必专,专久必通。回望芯片发展历史,从CPU,到图像与深度学习时代大放异彩的GPU,再到矿机ASIC的异军突起。芯片发展一直遵循着上述规律。某类需求的爆发,推动通用芯片中的某一功能独立并形成ASIC,来更好的满足需求。通用芯片发现需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,客户的需求决定一切。
大模型算力需求急刷膨胀,推理ASIC路径逐渐明晰。在GPT的推动下,世界迅速进入了大模型的新纪元。在Transformer算法下,算力大小成为了模型迭代的关键因素,全球对于算力卡的需求迅速井喷,能够先一步满足算力需求的通用GPU变得一卡难求。经过一年发展,大家对于Transformer认可度逐渐提升,同时算力的需求持续加速,促使相关ASIC浮出水面。以谷歌TPU,Groq为代表的优秀ASIC作品逐渐摸索出了以堆料矩阵乘法核构建“流水线”式处理流程的设计思路,在含弃通用GPU冗余小核提高性能的同时,也校好针对Transformer做了优化。
以矿机为鉴,需求和算法确定性是ASIC起量关健。复盘矿机AISC发展之路,受益币价上涨,算力需求井喷,且算法固定的比特币在问世的3年内快速完成了矿机的全面ASIC化。而币价前期走势较弱,算力需求不稳定,且一直存在转POS(停止挖矿)预期的ETH则在结束挖矿时仍未完成ASIC化。由此可见,稳定且大量的客户需求、算法的确定性,是ASIC放量的关键。
软件有望成为算力构筑第三极。ASIC时代,编译器成为了产品设计的壁垒,如何有效的连接“流水线”中的计算单元与存储,如何在无小核辅助的情况下整理进入计算核的数据,编译器的难度陡然提升。同时,如何在CUDA生态对第三方“兼容”之路封锁加剧的情况下,做出好用的软件与生态,让用户较为舒适的进行切换,也将成为新进入玩家需要面临的问题。
兼听则明,ASIC是通往AGI中不可或缺的一环。“硬件的使用者和开发者往往对立”,这一现象似乎正在AI芯片界再次出现,当下,AI工程师们普遍希望停留在舒适的CUDA生态,忽视通用芯片的冗余元件和低效。而芯片架构师们则在努力地创造ASIC架构,降低最底层的计算成本。而最终决定双方胜负的,唯有需求,需求足够大,算力的建设方终将为ASIC的性价比而买单,需求不明朗,客户则会先采购通用的产品然后继续观望。全局来看,AI的叔事足够宏大,与比特币的一轮完全替代不同,AISC与通用芯片将螺旋发展,通用芯片探索新算法与模型、ASIC将通过降本使得需求得以释放,繁荣的生态吸引更多用户与参与者,最终培育出新的、更强的算法,循环往复,螺旋上升,最终达成AGI的宏伟目标。
投资建议:关注五大环节,一线晶圆厂,ASIC设计龙头,散热厂商,ASIC芯片公司、服务器。
晶圆厂:台积电(TSMC)、英特尔(INTC)、中芯国际;
AISC设计龙头:美满电子(MRVL)、博通(AVGO);
散热厂商:英维克、中航光电、高澜股份;
ASIC芯片公司:寒武纪、芯原股份、嘉楠科技(CAN);
服务器龙头:工业富联、高新发展、中科曙光、紫光股份。
风险提示:AI发展不及预期,AI算法切换风险,ASIC用户认可度低的风险。1、 投资要件
天下芯片大势,通久必专,专久必通。回望近年来芯片发展史,从最早的CPU独霸天下,并行计算时代GPU的崛起,挖矿时代专用ASIC的大放异彩,我们不难发现,新的一大类芯片的出现,往往是因为某一类需求的爆发,从而使得过往通用型芯片中的特定功能被分割出来,形成了新的芯片类目。通用芯片发现需求,专用芯片满足需求,这就是半导体行业面对人类需求时的解决之道,归根结底,需求决定一切。芯片的架构能否满足契合客户的需求,是决定一个芯片公司能否成功的重要因素。
我们复盘矿机发展历史,算法较为简单且完全固定的比特币,在全网算力(矿工需求)的急剧内卷下,产业内较为快速地完成了ASIC对通用芯片的全替代,而一直存在有POW转向POS预期的以太坊,由于客户考虑转向之后ASIC完全失效的风险,因此残值较高的通用性芯片(显卡)一直保持了较高的市占率。因此,客户需求、算法稳定是ASIC放量的两大条件。
大模型时代,路线转变之快,需求放量之快,前所未见。正如同任何新爆发的需求一样,通用型芯片成为了开辟道路的急先锋,英伟达通过A100,H100两款产品,满足了AI
起量的第一波需求。如今,经过两年发展,全球对于Transformer及其变种认可度越来越高,同时推理,下游应用等需求释放迫在眉睫。我们认为,ASIC将会成为Transformer模式下训练或者下游应用推理算力的有效补充,正如同上几轮芯片周期所经历的一样,通用创造需求,专用满足需求。
主流ASIC大模型路线正在逐渐清晰,编译器愈发重要。回顾英伟达的芯片架构发展史,恰是一步步从专用走向通用的最好诠释,从最早的单小核,再到引入Tensor Core处理向量与矩阵,结合CUDA生态对于人类海量算法的积累,已然成为了AI的CPU芯片,从量子力学、光线追踪到大模型训练无所不能。大模型时代,随着Transformer及其变种的生态确立,亦或者说,以矩阵乘法为核心的运算方式的确立,主流ASIC得以将通用芯片中的不必要部分去除,保留单纯用于处理矩阵乘法的计算核,同时再利用Wafer-Scaling、近存计算等形式,在一张芯片内,通过更多的乘法单元和存储之间的“流水线式”配合,从而实现了对于该类算法的高效计算。
但与此同时,由于需要多个矩阵乘法核、存储之间的相互配合,同时少了对数据预处理的“小核”的帮助,该技术路线对于控制算核运算的“编译器”设计难度极高。从大火的LPU芯片“Groq”的发展历程就可以看出,团队用于软件设计的环节,远长于硬件架构的设计。因此,进入ASIC和推理时代,编译器对于算核的控制能力,编译器的设计能力,将成为行业进入者最大的壁垒。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)