Gemini1.5技术报告.pdf

双子座团队,Googlel
在本报告中,我们介绍了Gemini系列的最新模型Gemini1.5 Pro,这是一种计算效率高的多模式专家混合模型,能够从数百万个上下文标记中调用细粒度信息并进行推理,包括多个长文件以及视频和音频的时间。
Gemini1.5Pro在跨模态的长上下文检索任务上实现了近乎完美的召回,提高了长文档QA、长视频QA和长上下文ASR的最新水平,并匹配或超越Gemini1.0 Ultra的状态在一系列广泛的基准测试中具有最先进的性能。研究Gemini1.5 Pro长上下文能力的局限性,我们发现下一个标记预测和近乎完美的检索(>99%)方面持续改进,最多可达至少10M个标记,这是对Claude 2.1(200k)等现有模型的一代飞跃。)和GPT-4Turbo(128k)。最后,我们强调前沿大型语言模型令人惊讶的新功能;当给定卡拉芒语(一种全球使用人数不足200人的语言)的语法手册时,模型可以学习将英语翻译成卡拉芒语,其水平与学习相同内容的人相似。
一、简介
我们推出Gemini系列最新的多式联运型号:Gemini1.5Pro。这是我们从Gemini1.5发布的第一个版本,这是一个新的高性能多模式模型系列,它结合了新颖的专家混合架构以及培训和服务基础设施方面的重大进步,使其能够突破效率、推理、和长上下文表现。Gemini1.5Pro专为处理极长的上下文而设计;它能够对至少10M个令牌的细粒度信息进行回忆和推理。这种规模在当代大型语言模型(LLM)中是前所未有的,并且能够处理长格式混合模态输入,包括整个文档集合、多个小时的视频和几乎一天的音频。Gemini1.5Pro超越了Gemini1.0 Pro,在各种基准测试中
的表现与1.0 Ultra相似,同时训练所需的计算量显着减少。
对越来越长的上下文进行数据建模的能力跟踪了更通用和更强大的语言模型的发展,从现在Shannon(1948)提出的玩具2-gram语言模型,到1990年代和2000年代的现代n-gram模型(Brants等人,2007年;Chen和
Goodman,1999年;Jelinek,1998年;Kneser和Ney,1995年)通常受限于5个上下文标记,2010年代的循环神经网络语言模型可以有效地以数百个标记为条件(Jozefowicz)等人,2016;Mikolov等人,2010),到现代Transformer(Vaswani等人,2017),它可以以数十万个代币为条件(Anthropic,2023)。Gemini1.5Pro通过将语言模型上下文长度扩展了一个数量级以上,延续了这一趋势。扩展到数百万个标记,我们发现预测性能持续改进(第
4.2.1.1节),合成检索任务的近乎完美的召回率(>99%)(图1和第4.2.1.2节),以及许多令人惊讶的新功能就像从整个长文档中进行上下文学习(第4.2.1.6节)。重要的是,这种长上下文性能的飞跃并不是以牺牲模型的核心多模态能力为代价的。3总体而言,我们发现Gemini 1.5Pro大大超越了Gemini1.0 Pro,在绝大多数基准测试中表现更好(即27/31),特别是在数学、科学和推理(+28.9%)、多
语言能力(+22.3%)、视频理解(+11.2%)和代码(+8.9%)方面增加了利润(参见表7故障)。然而,更引人注目的比较是
与Gemini1.0 Ultra的比较,Gemini1.0 Ultra是一款具有多种功能的最先进型号。尽管Gemini1.5 Pro使用的训练计算量显着减少并且服务效率更高,但我们发现Gemini1.5Pro在超过一半的基准测试(16/31)上表现更好,特别是在文本基
准测试(10/13)和许多愿景基准(6/13)。
在以下部分中,我们将概述模型架构,并介绍Gemini1.5 Pro与其他法学硕士进行比较的大规模定量评估结果。我们对模型的长上下文能力进行了详细评估,然后对其核心能力进行了评估,类似于Gemini
1.0技术报告(Gemini-Team et al.,2023),涵盖了跨文本、代码、图像、视频和声音的。最后,我们讨论了我们负责任的部署方法,包括我们在部署决策之前制定模型政策、评估和减轻危害的影响评估流程。4
2.模型架构
Gemini 1.5 Pro是一种基于稀疏专家混合(MoE)Transformer的模型,它建立在Gemini 1.0(Gemini-Team etal,
2023)的研究进展和多模式功能的基础上。Gemini1.5Pro还建立在Google悠久的教育部研究历史之上(Clark等人,2022年;Du等人,2022年;Fedus等人,2021年;Lepikhin等人,2020年;Riquelme等人,2021年);Shazeer等人,2017;Zoph等人,2022)以及更广泛文献中的语言模型研究(Anil等人,2023;Anthropic,2023;Brown等人,2020;Chowdhery等人,2023;Hoffmann等人,2022;Jiang等人,2024;Kim等人,2021;OpenAl,2023;Rae等人,2021;Raffel等人,2020;Roller等人,2021;Thoppilan等人,2022;Touvron等人,2023a,b;Vaswani等人,2017)。MoE模型使用学习的路由函数将输入定向到模型参数的子集进行处理。这种形式的条件计算(Bengio et al.,2013;
3我们将核心能力定义为主要是非长上下文的模型能力(例如,数学、科学、推理、多语言、代码等),类似于
Gemini1.0技术报告(Gemini-Team等,2017)中涵盖的能力。,2023)。
4请参阅附录第8.1节中的模型卡(Mitchell等人,2019a)。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)