“弈衡”多模态大模型评测体系白皮书

随着人工智能技术的迅猛发展,它已成为全球科技革命的核心驱动力。特别是2017年Transformer模型提出后,人工智能大模型以超凡的性能和无限的可能性,迅速成为科技界的焦点。2023年初,GPT-4的问世更是在全球范围内引起了巨大反响,标志着大模型技术首次进入公众视野2。
随着大模型技术的不断演进,其处理能力已从单一的文字信息扩展至图像、语音等多模态数据,多模态大模型进入快速发展阶段。它们不仅在日常生活中的辅助作画、图片解读等场景中展现出应用潜力,更在视频数据分析、多目标识别等生产领域发挥着重要作用。目前典型的多模态大模型有国外的GPT-4Vision,Gemini,国内的文心一言、讯飞星火、智谱清言等門。这些大模型算法各异,在不同的任务场景下各有优劣,如何对这些多模态大模型开展客观、科学的评测,评估特定任务场景下的最优选择,对大模型的研发迭代以及应用落地都具有重要意义。
相比于语言类大模型,多模态大模型具备对文本、图像、视频和音频等数据进行综合处理的能力,在生产生活领域中具有广泛的应用前景。同时,多模态大模型评测面临评测数据更多样、评测任务更丰富、评测方式更复杂、评测成本更昂贵等挑战。如何应对上述挑战,构建全面、客观的多模态大模型评测体系,成为业界关注的热点问题。目前,部分业界企业和研究机构,如微软、谷歌、智源研究院、上海AI实验室、腾讯优图实验室、厦门大学、南洋理工大学等,发布了相关论文、评测报告,从性能、参数量等维度对业界主流多模态大模型进行了评测,并基于评测结果形成了榜单,如MMbench,MME等。为提升多模态大模型的实际应用效果,推动大模型与生产生活的快速结合,有必要从用户视角出发,构建一套客观全面、公平公正的多模态大模型评测体系。
中国移动技术能力评测中心作为中国移动的第三方专业评测机构,联合业界权威机构、头部企业,攻关多模态大模型评测难点技术,基于前期评测数据和评测经验积累构建“弈衡”多模态大模型评测体系,并编制本白皮书,旨在为多模态大模型的评测场景、评测指标、评测方式等提供参考基准,为评测数据和评测工具的构建提供参考指导。本白皮书聚焦于文生图、图生文、图文理解等各类应用场景,深入分析多模态大模型的应用需求,系统总结行业典型评测体系,并创新地提出“弈衡”多模态大模型评测体系,助力大模型技术与行业应用的深度融合。具体包括如下四方面内容:一是总结梳理多模态大模型的应用需求与评测挑战,将评测需求划分为识别、理解、创作、推理四种任务;二是广泛调研业界多模态大模型评测技术和评测体系,从评测方式、评测维度和评测指标等方面进行分析总结;三是提出“弈衡”多模态大模型“2-4-6”评测框架,针对图文双模态大模型,详细阐述基础任务和应用任务两大评测场景,评测指标、评测数据等四大评测要素,以及功能性、准确性、交互性、安全性等六大评测维度;四是针对多模态大模型演进趋势,展望评测肢术重点方向。
未来,中国移动将持续跟进多模态大模型发展,不断优化“弈衡”多模态大模型评测体系,与业界合作伙伴一道,共同打造评测产业标准化生态,推动多模态大模型产业成熟和落地应用,为Al+赋能干行百业贡献力量。

本文来自知之小站

 

PDF报告已分享至知识星球,微信扫码加入立享3万+精选资料,年更新1万+精选报告

(星球内含更多专属精选报告.其它事宜可联系zzxz_88@163.com)