电子行业:AI应用侧深度渗透,驱动国产先进封装技术寻求突破.pdf

一、DeepSeek架构上的突破-算法层面解决算力效率问题
DeepSeek从模型的输入处理阶段到计算阶段再到模型的输出阶段进行深层次优化,显著提升算力效率,使得其在训练阶段以及推理阶段在保持模型性能的同时,减少冗余计算,从而塑造出更高性价比模型。
传统Transformer模型的自注意力机制存在显著的计算瓶颈:处理n长度序列时需构建n²规模的注意力矩阵,导致内存和计算复杂度均呈0(n²)增长。以1024长度序列为例,单头注意力矩阵即需4MB存储,叠加多头多层结构后硬件资源极易耗尽。在推理场景中,由于需实时逐Token生成文本,重复计算历史Token的键值数据会引发指数级资源消耗。
DeepSeek通过引入KV缓存机制实现突破性优化:将历史Token的键值向量存储复用,仅计算新Token的查询向量进行匹配。该策略使推理阶段复杂度从O(n²)降至0(n),大幅减少冗余计算。
KV缓存快速存取,以及更强的并行计算能力处理动态增长的序列数据,仍对高性能算力芯片吞吐量有一定要求。

DeepSeek V2通过Multi-Head Latent Attention(MLA)技术突破现有注意力机制瓶颈:传统多头注意力(MHA)需存储完整键值矩阵,导致KV缓存空间随序列长度线性膨胀。主流改进方案如MQA(多查询注意力)和GQA(分组查询注意力)虽能降低缓存需求,但存在显著性能损失——MQA缓存需求最小但精度最弱,GQA则在缓存与性能间折中。
MLA创新性地引入低秩键值联合压缩:将原始高维键值矩阵映射至低秩潜在空间,仅需存储压缩后的潜在向量。该方法使KV缓存空间较MHA减少90%以上(对标GQA水平),同时保持与MHA相当的性能表现。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)