2024年OpenAl最新大模型o1革新进展、突出表现及领域推进作用分析报告.pdf

在许多推理密集型的基准测试中，01的表现与人类专家相她美。OpenAI评估了o1在AIME考试中的数学表现，该考试旨在挑战美国最优秀的高中数学学生。在2024年的AIME考试中，GPT-40平均仅能解答12%的问题(即1.8/15),而01平均解答正确
率为74%(即11.1/15)。单次样本测试的结果为83%(即12.5/15)时通过64个样本的共识，若通过学习得分函数对1000个样本进行重新排名，其正确率达到了93%(即
13.9/15)。得分13.9足以让其跻身美国全国前500名学生，并超过参加美国数学奥林匹克竞赛(USA Mathematical Olympiad)的分数线
OpenAI还对01在GPOA-diamond基准测试上的表现进行了评估，该测试是一个困难的智力基准，评估在化学、物理和生物学方面的专业知识。为了将模型与人类进行比较，OpenAI邀请了拥有博士学位的专家来回答GPOA-diamond的题目。结果显示，01超越了这些人类专家的表现，成为首个在该基准测试中表现优于人类专家的模型。这一结果并不意味着01在所有方面都比博士更有能力，而仅表明模型在解决某些问题上比博士生预期的表现更为出色。在其他多个机器学习基准测试中，01也超越了当前的最先进水平。启用了视觉感知功能后，01在MMMU测试中得分为78.2%,成为首个在人类专家中具备竞争力的模型。此外，01在MMLU的57个子类别中，有54个超越了GPT-40的表现。

本文来自知之小站

PDF报告已分享至知识星球，微信扫码加入立享3万+精选资料，年更新1万+精选报告

（星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com）

相关文章

人凝血因子Ⅷ：中国本土血浆采集质量齐升，为凝血因子制剂生产创新发力打下基础 头豹词条报告系列

人工智能算力高质量发展评估体系报告（终稿）

人工智能赋能数字化配电网探索与实践

人凝血因子Ⅷ：中国本土血浆采集质量齐升，为凝血因子制剂生产创新发力打下基础头豹词条报告系列