智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

前言多模态模型（Large Multimodal Model，简称LMM）近期被认为是大模型研究和发展的一个关键领域。与早期只能处理单一数据类型（如文本、图像或音频）的机器学习模型不同，LMM 能同时处理和理解多种数据类型，更接近于人类大脑的工作方式，让人机交互变得更为灵活和多样化，提升模型的综合性能和理解深度。然而，目前中文多模态模型领域缺乏全面、中立的评测基准。因此，为了推动该领域的进一步发展，智源研究院提出 CMMU —— 中文多模态多题型理解及推理评测基准，当前发布的 CMMU v0.1 版本从中国教育体系规范指导下的全国小学、初中、高中考试题中抽取并制作了3603道题目，题型包括单选题、多选题、填空题，并采用多重评测手段避免模型“随机猜对答案”。CMMU 整体难度较高，OpenAI 推出的 GPT-4V 多模态模型答题准确率在30%左右，经错误类型分析，LMM在图像理解和推理能力方面还有待提高。为避免测试集数据集泄露，CMMU 评测基准当仅开源验证集及评测代码，测试集将集成至 FlagEval 大模型评测平台和 Hugging Face 平台，用户可自行申请评测。此外，智源团队正在邀请经验丰富的教师改编或新编学科考题，持续扩充 CMMU 评测集，以保证评测结果客观、公正；同时探索基于判别模型的评测方式，优化或替代传统基于规则的评测方式，以适应多模态模型的发展需要。↓ CMUU相关链接CMMU 验证集、评测代码及技术报告详见：https://github.com/FlagOpen/CMMU* FlagEval 及 Hugging Face 平台评测说明，请关注 GitHub 仓库更新

数据集构成

1. 数据概况

CMMU v0.1版本包含 3603 道题目，带有答案解析的题目有2585道。按照1:1划分验证集和测试集（验证集包含1800道题，测试集包含1803道题），验证集将完全公开，方便研究人员测试模型。

按照学段来划分，小学题目有250道，初中和高中分别为1697和1656道，其中，小学只包含了数学一门学科，初中和高中包含了七门学科。
难度划分为“普通”和“困难”的题目分布比例大致为8:2，难度划分依据是有经验的教师按照题目难度将分为“普通”和“困难”两类。

2. 数据预处理

数据集来源于全国各地小学到高中的考试题目，包含数学，物理，化学，生物，政治，地理，历史共计7门有较多图文题目的学科。

首先原始PDF格式的题目转成Json格式，并且把公式都转化为LaTeX格式，并且通过人工筛查去除了图片模糊，分辨率低的图片，处理了在转换公式为LaTeX格式遇到的问题。
特别说明：对于填空题，如果一道题里面有多个空，会尽可能拆分成单个填空的子问题（可能存在部分无法拆分的情况），最终 639道填空题被拆分成了1632个子问题。

题目样例：

智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

评测分析

基于CMMU对3个闭源模型和7个开源模型进行了评测，整体结果如下：

智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

总体来说，CMMU非常具有挑战性，目前 GPT-4V也只在验证集了和测试集上分别取得了30.19%和30.91%的准确率。挑战性一方面来源于题目总体难度大，多选题和填空题的题型比单选题难度更高，另一方面是由于我们采用了ShiftCheck的选择题评测方式，使得模型很难在实际不能做对的情况下随机地“猜对答案”。

从学科的角度分析，在政治、历史这种偏向于知识记忆的学科上，模型普遍可以取得更好的成绩，但是在数学、物理这类需要推理能力的学科，模型普遍表现不佳。这说明目前的多模态大模型，还需要强化推理能力。

基于本文提出的 ShiftCheck评测方式，我们进一步分析了对模型的 position bias，并 BiasRate定量分析position bias的的程度。实验发现：

在单选题中，模型普遍对一个或者两个位置存在选择倾向性，这再次验证了 position bias 是大模型是常见的问题。测试的10个模型中，没有模型对选项D有偏好。
整体效果好的模型，BiasRate 处于比较低的水平。

最后我们对GPT-4V使用了思维链（CoT）进行了错误分析。随机挑选了500道题目进行分析，发现错误最多的是以下三类：图像理解错误，推理错误和题目理解错误。

评测方式说明：ShiftCheck

在评测单选题时，我们采用了一种非常严格并且可以量化position bias的评测方式，有效的防止模型因为随机猜测或由于position bias 作出正确回答。

首先我们使用了mmbench中提到的Circular Evaluation的方式，如下图所示，把选项循环向右移动，如果一道题目有k个选项，对选项进行k次移动，然后把k个题干相同选项不同的题目送入模型评测。只有当这k次变换后的题目全部做对，这道题才能被判定为正确。

智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

同时，我们还可以在第一步的基础上，衡量模型的position bias。通过上述的循环移动变换，可以保证每个选项在不同位置出现的概率均等。如果不存在position bias，每个选项被选中的概率也是均等的。基于这个理论，可以根据模型选择每个选项的概率分布，量化position bias。采用BiasRate来衡量position bias的程度，具体计算方式如下：

首先计算每个选项被选中的概率（m是每题选项个数，n是总题目数）：

智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

然后把 P 的方差作为BiasRate：

智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

由于目前的多模态模型的指令跟随能力有限，有时候会输出冗长的回答。为了减少答案的干扰，我们对回答进行了预处理。首先选取模型回答的最后一行作为候选答案；对于单选题和多选题，从候选答案中抽取出字母作为最终答案。

此外，我们还对不同的题型采用不同的评估策略（更多细节详见技术报告）：

单选题：使用ShiftCheck的方式，同时评测模型的准确率和BiasRate
多选题：当且仅当模型输出的选项和答案完全一致才算正确，否则认为是错误的
填空题：因为填空题的答案可能不唯一，一些和标准答案类似的描述也可以被认为是正确的。由于我们目前使用GPT-4去判断答案是否正确（考虑到GPT-4的成本问题，我们同时开源了基于规则的评测代码，大家可基于开源代码进行定制优化）。

敬请期待

CMMU 对更多开源多模态模型的评测结果将在 FlagEval 3月榜单中呈现，请关注“智源研究院”公众号获取最新讯息。

FlagEval（天秤）是北京智源人工智能研究院推出的大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能。当前 FlagEval 已推出大语言模型评测体系，评测超过90个开源及闭源模型，视觉、多模态、语音大模型评测即将上线，敬请期待。更多信息详见官方网站：https://flageval.baai.ac.cn 智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

2024 年 1 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

潞晨尤洋：日常办公没必要上私有模型，这三类企业才需要 | MEET2026

共推空天领域智能化升级！趋境科技与金航数码强强联手

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

面向「空天具身智能」，北航团队提出星座规划新基准丨NeurIPS’25

5天连更5次，可灵AI年末“狂飙式”升级

小冰之父李笛智能体创业，公司取名Nextie！陆奇是股东

梁文锋，Nature全球年度十大科学人物！

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

摩尔线程新一代GPU架构10天后发布

极客公园创新大会 2026在京落幕，罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

文心AIGC

潞晨尤洋：日常办公没必要上私有模型，这三类企业才需要 | MEET2026

共推空天领域智能化升级！趋境科技与金航数码强强联手

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

面向「空天具身智能」，北航团队提出星座规划新基准丨NeurIPS’25

5天连更5次，可灵AI年末“狂飙式”升级

小冰之父李笛智能体创业，公司取名Nextie！陆奇是股东

梁文锋，Nature全球年度十大科学人物！

起底“豆包手机”：核心技术探索早已开源，GUI Agent布局近两年，“全球首款真正的AI手机”

摩尔线程新一代GPU架构10天后发布

极客公园创新大会 2026在京落幕，罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」