AI深度洞察系列报告(一):为什么ScalingLaws重要?.pdf

投资要点
Scaling Laws:大模型训练的重要指导法则,规模越大模型效果越优。Scaling●Laws是最早由OpenAI提出的大模型开发的黄金经验法则,核心在于得到模型参数规模、模型训练数据量以及模型计算资源三因素之间关系。实验结果显示,在transformer架构下,如果不断扩大模型三因素规模,得到的模型效果越优,算力规模增大和升级仍是通往AGI的关键。
Scaling Laws:模型三因素之间存在界律关系,可对模型进行效果预测,同时
三因素之间存在最优解。OpenAl在论文《Scaling Laws for Neural LanguageModels》中发现AI大语言模型性能的三个主要因素(即模型大小、数据集大小和训练计算量)存在幂律关系,幂律关系意味着可通过对数转换变成线性关系,从而实现模型建模,达到预训练模型对模型效果的预测作用,从而为模型实际训练提供重要参考和指导。同时DeepMind对于ScalingLaws的进一步研究发现,在设定条件下,模型三因素之间存在最优解。
●随着训练规模不断增大,大模型会出现涌现特质,且该现象具备普遍性。“涌现”能力(EmergentAbility)主要指的是当模型参数规模的增大突破某一阈值时,某些能力突然巨大提升。通过实验数据发现,当不断增加训练规模,大模型会出现涌现特质,表现为理解能力、解决问题等方面能力的突然提升。从大语言模型到多模态模型,Scaling Laws已经得到充分验证。1)GPT-4:通过基于Scaling Laws得到的幂律关系等结论,结合各种优化方法,OpenAl能够从较小计算量训练的模型来可靠预测GPT-4某些方面性能;2)Baichuan2:当将大语言模型训练数据库变为中文时,基于Scaling Laws的搭建的预测模型,精准实现了对于最终训练模型的效果预测;3)Sora:作为多模态AI模型(文生视频),Sora模型基于transformer架构,通过训练同样获得了涌现特质,证明Scaling Laws在多模态领域依然有效。
●投资逻辑及标的推荐:当前大模型仍处于发展前期,尤其是多模态模型还处在发展早期,基于Scaling Laws的启示,为了达到最优的模型效果,当我们不断增加模型参数规模时,所需要配置的算力规模仍需要等比例提升,推动
算力硬件需求长期增长。通往AGI的进程中,算力仍然是主要掣肘,GPU及
其网络设备仍需持续升级换代。算力硬件基础设施一般包括服务器、交换机、
光模块三个重点环节,对应的产业链相关标的值得关注。重点推荐:中际旭
创、天孚通信、新易盛;建议关注:鼎通科技、中瓷电子、太辰光、罗博特科、
源杰科技、仕佳光子、博创科技、光库科技、光迅科技、华工科技等。

风险提示:大模型训练架构发生变化,导致Scaling Laws结论失效的风险;
贸易摩擦加剧;AI应用进度不及预期。1、Scaling Laws:AI大模型领域关键指导法则
Scaling Laws(缩放法则):主要用于探索在大模型训练过程中,模型参数量、数据集和计算量之间规律,最早由OpenAI在2020年提出。Scaling Laws的出现为当下AI大模型的训练提供了重要指导。
对于基于transformer的大模型而言,在训练过程中存在以下重要结论——ScalingLaws:
模型规模要大:即增加模型参数量、数据集和计算量,就可以得到性能更优的模型效果。
模型参数量、数据集以及计算量之间存在幂律关系,可以通过建模拟合参数,在较小的模型投入情况下,对实际要训练的模型效果提前预测,达到指导作用。当模型规模达到一个阈值时,模型会出现涌现特质——未预期到的新能力,推动模型性能提升。
1.1、Scaling Laws结论之一:模型扩大规模,性能更优
大模型:是机器学习的一个分支,行业取得明显进展。大语言模型本质上是机器学习的一个分支,属于机器学习领域下面的深度学习,尝试模拟人脑的工作方式,创建人工神经网络来处理数据,最终利用训练得到模型对未知数据进行预测。2023年年初,OpenAI的ChatGPT大模型的出现,证明当下大模型技术能力的使得该模型能逐步开始表现出类似人脑的思考和对话方式。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)