计算机行业专题报告:视频大模型最新进展如何?.pdf

1 OpenAI视频大模型技术发展思路
Sora团队的负责人AdityaRamesh在2024智源大会开幕式上发表了题为《Languageas theScaffolding for Visual Intelligence》的主题演讲,介绍了多模态大模型领域近年来的发展历程以及未来的前进方向,分享了OpenAI从研发DALLE、iGPT、CLIP到Sora的指导思想的特变。
DALLE:通过压缩数据可以类现学习,但仅仅压熵并不能道向AGI。2021年2月,OpenAI发布了DALL-E,它是一个同时使用文本和量化压缩后的图像以自回归方式训练的Transfommer模型,可以将文字描述映射为量化的创作各种风格的逼真图像。给定一段语言Prompt,OpenAI用通用的语言模型对其进行建模,还训练了一个用于图像的VQ-VAE编码器,图像块的嵌入会被语言的嵌入增强。

DALL-E3:增强训练文本的摘述性,训炼文生图模型的效率也会更高,即使在推理时无法使用具有描述性的文本,也可以使用具有较强描述性的文本作为训练的框架得到更好的无条件模型。如下图所示,当不加入任何噪声,模型将每个点的像素值转化为图像,模型不会学到任何知识:当拥有更大的算力,加入少许噪声,留下的图像对应的文本十分具有描述性,模型学到的知识变多了。随着加入噪声变多,图像数据的不确定性递增,留下的图像对应的文本描述性下降,以文本为条件模型学到的知识变多。当拥有大量算力时,可以建模没有任何条件下的图像的熵。OpenAI认为,利用极具描述性的文本训练,有助于在小规模模型上补充感知相关的先脸。在参数量较大,即模型规模较大时,模型可以学习到语言无法描述的知识。当我们拥有的算力越大,就可以使用越少的补充语言描述。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)