基于标准PCIe接口的人工智能加速卡液冷设计白皮书.pdf

本文件由中移动信息技术有限公司提出。本文件由开放计算标准工作委员会归口。
本文件起草单位:中移动信息技术有限公司,浪潮电子信息产业股份有限公司,上海壁仞智能科技有限公司,中科寒武纪科技股份有限公司,上海燧原科技有限公司,宁畅信息技术有限公司,中科可控信息产业有限公司,新华三技术有限公司,史陶比尔(杭州)精密机械电子有限公司,中航光电科技股份有限公司,京东云计算有限公司,百度在线网络技术(北京)有限公司。
本文件主要起草人:李圣义,杨洋,李金波,刘广志,罗竣峰,李明杰,周立志,邸贺亮,张政,黄乾明,王辉,朱重兴,孙鹏,李壮,谢泽邦,王周杰,廖嵬,聂超,高亦廷,梅敬青,王思善,王海岩,韩学磊,李伟祖,王伟,李鹏,谢地,董永申,李进宝,王贵林,蔡岳霖,金跃红,郑建武,高从文,刘玲,董少杰,都卓宁,傅浩杰。1概述
冷板式人工智能加速卡在结构设计、流体快插接头、热性能设计等方面无统一设计要求,服务器针对不同厂商的冷板式人工智能加速卡需要进行结构和散热适配,耗费大量人力、物力。本技术白皮书主要制定标准PCle接口形态的冷板式人工智能加速卡在结构设计、冷板设计、流体快插接头选型、热性能设计、可靠性设计方面的要求,用于指导冷板式人工智能加速卡的设计。通过本白皮书提供的设计指导,降低服务器和冷板式人工智能加速卡之间的适配难度,降低适配的成本和人力投入。同时降低部署和运维难度,方便终端客户根据业务场景灵活选择相应产品,加速液冷式人工智能加速卡和服务器产品上市。此外,通过统一的设计指导,在冷板本体、流体快插接头等关键组件上产生规模化效益,获取低成本液冷解决方案,推动冷板式液冷技术的普及
2发展趋势
以AIGC为代表的人工智能大模型的发展,带来了算力需求的指数式提升。AI芯片需要通过提升工作频率或增加运算单元来获得更强的算力,带来人工智能加速卡功耗的不断提升。当前人工智能加速卡单卡功耗己达到350W至600W量级,带来服务器散热功耗的显著提升,在给服务器散热设计带来挑战的同时,也给建设绿色数据中心带来了很大的挑战。液冷技术成为解决人工智能服务器高功耗散热问题、降低数据中心PUE的关键,其中冷板式液冷技术是当前解决人工智能加速卡高功耗问题的主流方案。目前标准PCIe接口形态的人工智能加速卡仍然是业界主流,国内外部分厂商已经推出了相应的冷板式人工智能加速卡,但均是按照自身产品形态特征进行设计,未考虑同行业其他厂商情况,不能作为标准化设
计。
同时,虽然冷板式液冷散热技术在CPU、内存、扣板式人工智能加速卡上已经取得了成功应用,但在标准PCIe接口形态的人工智能加速卡上的应用仍然很少,业界迫切需要一个针对标准PCIe接口形态人工智能加速卡的液冷设计指导,来推动冷板式散热技术在人工智能加速卡应用的普及。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)