RWKV,引领大模型架构变更的新型RNN.pdf

林玥煜元始智能算法工程VP
原始智能算法工程VP,曾任大数医达科技有限公司算法总监,阿里巴巴数据事业部系统架构师,多年来深耕大数据、人工智能在工业界应用和开发管理。对大语言模型在严肃医疗场景的应用、开发拥有丰富的实战经验。

1.把每一个Block拆成若干个部分,在训练/预测的时候,不互相依赖的模块可以相互并行计算。
2.在需要状态传递的Time Mixer模块,通过CUDA/FLA扩展,在Channel Wise+Head Wise并行处理。由于Channel和Head的数目很多,通常都超过了一个GPU所拥有的Tensorcore的数目,我们在Time Mixer模块也能充分利用GPU的并行计算能力。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)