1.1业界难题
在A|场景中,CPU粉演着指挥统筹与核心控制的角色。GPL/NPU唤责核心A大模型的并行高性能训练与推理计算。考虑到算力的供应多样性与长期可获得性。以x86和ARM为代去的通用算力和以GPLNPU为代去的A算力,将长期协同发展与配合使用,因此需要考虑异构算力的统一调问题:
异构党力管理的挑战
●资源管理:算群管理的资源从通常的CPU+内存,变为CPU+内存+AI算力卡等多种异构硬件管理。除了多种型号的A嘴力卡、同型号多优A算力卡、还有整卡与切分卡的统一管理调度。
拓扑感知:大模型分布式训练过程中。AI算力卡之间或A服务器之间的带宽并不完全一致。因此调度时,必须考虑异构资源的拓扑关系。才能妆得最佳的训练效率。
分布式训练调度的挑战
资源争夺冲突死锁:传统容器调度逻辑都是按照单个容器依次调度。而分布式A湖练容器
必须同时运行以进行集合通信,且只能同时调度成功或调度失败。否则,多个分布式作业在资源调度层面出现争抢并导致死锁,所有训练任务都无法得到有效调度。
●Al资源碎片何题:单个训练雅理作业所需要的A算力卡数典型值为N、2、4、8、nB,大于8卡的作业。需运行在完全空闲的节点上。随着多个任务的异步结束,集群中会出现资源醉片。即便整体上存在足够的资源。需舰多卡的作业地无法运行,导致资源利用率降低。
推理算力利用率提升的挑战
A算力多圆队共享何题:集团内部需要考虑不同部门多个彼此隔离的A小集群可能导致的整体资源利用率较低的问题,资源池化按需调度是提升资源利用率的有数咖法。
●算力复用:在推理场景,需要实现推理卡的多路任务并行复用,即多个算法共用一张AI卡,以提升算力利用率。
本文来自知之小站
PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告
(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)
