2024年OpenAl最新大模型o1革新进展、突出表现及领域推进作用分析报告.pdf

在许多推理密集型的基准测试中,01的表现与人类专家相她美。OpenAI评估了o1在AIME考试中的数学表现,该考试旨在挑战美国最优秀的高中数学学生。在2024年的AIME考试中,GPT-40平均仅能解答12%的问题(即1.8/15),而01平均解答正确
率为74%(即11.1/15)。单次样本测试的结果为83%(即12.5/15)时通过64个样本的共识,若通过学习得分函数对1000个样本进行重新排名,其正确率达到了93%(即
13.9/15)。得分13.9足以让其跻身美国全国前500名学生,并超过参加美国数学奥林匹克竞赛(USA Mathematical Olympiad)的分数线
OpenAI还对01在GPOA-diamond基准测试上的表现进行了评估,该测试是一个困难的智力基准,评估在化学、物理和生物学方面的专业知识。为了将模型与人类进行比较,OpenAI邀请了拥有博士学位的专家来回答GPOA-diamond的题目。结果显示,01超越了这些人类专家的表现,成为首个在该基准测试中表现优于人类专家的模型。这一结果并不意味着01在所有方面都比博士更有能力,而仅表明模型在解决某些问题上比博士生预期的表现更为出色。在其他多个机器学习基准测试中,01也超越了当前的最先进水平。启用了视觉感知功能后,01在MMMU测试中得分为78.2%,成为首个在人类专家中具备竞争力的模型。此外,01在MMLU的57个子类别中,有54个超越了GPT-40的表现。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)