AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

115次阅读
没有评论

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

聚焦肺癌,92个问题+1691个临床要点

允中 发自 凹非寺

量子位 | 公众号 QbitAI

蚂蚁健康与北京大学人民医院王俊院士团队历时6个多月,联合十余位胸外科医生共同打磨,发布了全球首个大模型专病循证能力的评测框架——

GAPS(Grounding, Adequacy, Perturbation, Safety),及其配套评测集 GAPS-NSCLC-preview。

旨在解决现有医疗AI评测局限于考试式问答、缺乏临床深度、完整性、鲁棒性与安全性综合评估的问题。

该评测集聚焦肺癌领域,包含92个问题、覆盖1691个临床要点,并配套全自动化的评测工具链,通过指南锚定、多智能体协同实现从问题生成、评分标准制定到多维度打分的端到端自动化。

目前,相关成果已应用于“蚂蚁阿福”,论文《GAPS: A Clinically Grounded, Automated Benchmark for Evaluating AI Clinicians》、配套评测集GAPS-NSCLC-preview、自动化评测框架已全面公开。

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

这项研究客观评价了大模型的临床能力:当前主流医疗大模型虽已具备“医学百科全书”般的知识广度,但在临床实践中仍处于成长阶段——

它们在系统掌握医学知识方面表现卓越,但在应对真实临床场景中的不确定性挑战时,尚需进一步提升判断力与可靠性。

权威引领:北大人民医院院士团队深度主导临床标准构建

本项目由中国工程院院士、北京大学人民医院院长王俊教授领衔的团队全程主导,并与蚂蚁团队深度协作完成。

在GAPS构建过程中,院士团队原创性地提出了GAPS评测的理论框架,并组织十余位胸外科医生持续参与评测题库构建、临床金标准答案撰写、模型输出的专业审核与迭代优化,提供NSCLC(非小细胞肺癌)领域前沿临床指南的权威解读与循证医学方法论指导,确保每一项指标都扎根真实临床实践,具备高度专业性与可信度。

蚂蚁团队则发挥大模型与工程化能力优势,经过多轮高强度医工协同与反复迭代,将专家脑海中的复杂“临床金标准”精准沉淀为大模型可理解、可执行的结构化逻辑,实现GAPS的规模化、自动化与可落地应用。

此次合作实现了“临床专家定标准、AI 技术做转化”的深度融合,突破了传统医疗AI评测中专家浅层参与的局限,标志着顶尖临床专家与AI技术团队的深度协作,为医疗AI从“技术驱动”走向“临床价值驱动”树立了新的范式。

行业痛点:考得好,信不过

在和大模型讨论医疗问题时,有时候回答得很好,有时候回答得很差,由于大模型的变化日新月异,医生和患者都没有办法在短时间对大模型产生客观评价,因此对大模型的信任就无从谈起。

为了客观评价大模型的能力,学界通常采用基准测试的方法。

然而,当前医疗AI的基准测试普遍缺乏对模型循证能力、可解释性与安全性的系统评估。

长期以来,医疗AI的评估依赖MedQA、PubMedQA等“试卷型”基准,仅考察事实记忆能力;而HealthBench等基于人工评分细则(Rubric)的方法又受限于主观性强、扩展性差。

这些方法无法反映真实诊疗场景:患者描述模糊、检查结果矛盾、治疗方案需权衡利弊……正如论文所强调:

真正的医疗能力不在于背诵事实,而在于管理不确定性。

尤其在肺癌这一全球致死率最高的癌症领域,缺乏细粒度、专病化的评估工具,使得医疗机构和开发者难以客观判断医疗AI是否真正具备临床可用性。

GAPS的诞生,正是为了填补这一关键空白。

破局之道:GAPS——从“考试机器”到“临床医生”的四维标尺

GAPS是一个基于循证医学、全自动构建的AI临床能力评测框架,首次将临床胜任力解构为四个正交维度,并聚焦NSCLC(非小细胞肺癌)这一高难度专病场景进行系统验证:

1、G(Grounding)认知深度:不止于“是什么”,更考验“为什么”和“怎么办”。

  • G1和G2:事实回忆与解释(AI的舒适区)
  • G3:基于指南的循证决策(如NCCN推荐方案)
  • G4:推理性思维(Inferential Reasoning)——在证据冲突或缺失的“灰色地带”做出合理判断,这是当前所有模型的“死亡区”。

2、A(Adequacy)回答完备性:医生的一句话可能关乎生死。GAPS引入三级评价:

  • A1(必须有):核心诊疗建议
  • A2(应该有):关键限定条件(如剂量、禁忌症、监测指标)
  • A3(锦上添花):患者教育、多学科协作建议等

缺少A2,再“正确”的建议也可能导致临床误用。

3、P(Perturbation)鲁棒性:真实患者不会照着教科书说话。GAPS通过三类扰动测试模型抗干扰能力:

  • P1:语言噪音(口误、方言)
  • P2:冗余信息(无关症状堆砌)
  • P3:对抗性前提(如诱导性错误假设)

实验显示,多数模型极易被误导,甚至顺从用户的错误引导。

4、S(Safety)安全底线:医疗容不得“差不多”。GAPS 建立四级风险体系:

S1(无关回答)→ S4(灾难性错误/Never Events,如推荐禁忌药物)

一旦触犯S4,无论其他维度得分多高,总分直接归零——这是不可逾越的红线。

GAPS解决了现有医疗AI评测仅关注“准确率”的局限,首次实现对循证决策能力、回答完备性、现实鲁棒性与安全底线的系统性、自动化评估。

其优势在于:以临床指南为锚点,全自动构建高保真评测项与评分规则,兼具可扩展性、可复现性与临床真实性,为AI向可信临床伙伴演进提供精准导航。

核心黑科技:全自动化的“循证评测集”流水线

GAPS最大的技术亮点在于其端到端自动化与可扩展性

不同于以往依赖人工命题,GAPS构建了一套基于临床指南(Guidelines)的自动化生成工厂:

  1. 证据邻域构建:以NCCN、ESMO等权威指南为核心,自动抓取3跳内引用文献,构建高可信医学知识图谱与疾病话题树;
  2. Deep Research Agent:基于GRADE方法学,模拟人类专家围绕PICO(人群、干预、对照、结果)展开的证据检索、证据评估、强弱推荐的流程,自动生成带证据等级与推荐强度的高质量评分细则;
  3. 虚拟患者生成:利用大模型合成去隐私化临床病例,并精准对齐知识图谱,确保每道题“有据可依、有理可循”。

该流水线已成功应用于胸外科的专病——NSCLC(非小细胞肺癌),生成包含92道题、1691个临床要点的评测集GAPS-NSCLC-preview

题目按认知深度分为G1~G4四级(从事实回忆到不确定性下的推理),每题均配备平均12项完整性(A1~A3)与7项安全性(S1~S4)评分要点,并支持P0~P3四级扰动测试。

未来可快速扩展至心血管、儿科、内分泌等任意专科的专病领域——只要有指南,就能生成高质量评测集。

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

可靠的裁判:自动化评测让AI医疗能力可量化、可复现、可进化

GAPS评测集同时搭配了一套高可靠性的自动化评测框架,实现了对AI临床能力的客观、细粒度、端到端的自动化评估。

为确保评测本身可信,团队将自动化评分结果与五位资深专家的独立标注进行严格比对:

在92个真实临床查询、1691个临床要点上,该框架与专家共识的整体一致率达90.00%,Cohen’s Kappa系数达0.77(“实质性一致”),Macro-F1达0.88——不仅显著优于现有基准(如HealthBench中GPT-4的0.79),已达到人类专家间一致性水平(88.5%~92.0%)。

这证明GAPS评测集的自动评判能力具备专家级可靠性。

在此基础上,评测不再是终点,而是进化的起点。

框架输出的结构化评分(G/A/P/S四维、MET/NOT-MET标记)可精准定位模型在循证决策、回答完备性、扰动鲁棒性或安全红线上的缺陷;

由此,GAPS具备成为“评测即反馈、反馈即迭代”的最重要基石——AI医疗能力不再依赖模糊经验,而是通过可量化的指标、可复现的流程、可积累的进化路径,稳步向临床可用迈进。

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

实战揭秘:顶尖大模型的“滑铁卢”

研究团队使用GAPS对GPT-5、Gemini 2.5 Pro、Claude Opus 4、Qwen3-235B-A22B-Instruct-2507、DeepSeek-V3.1-Terminus等主流模型进行“体检”,结果发人深省:

1、“百科全书”易做,“专家”难当:

所有模型在G1(事实)和G2(解释)阶段表现优异(GPT-5得分约0.72)。但一旦进入G3(确定性决策)和G4(非确定性推理),分数呈断崖式下跌,GPT-5在G4阶段跌至0.45,其他模型甚至跌破0.35。这说明 AI目前还只是“背书机器”,而非“推理伙伴”。

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

2、不仅要“对”,还要“全”:

在Adequacy(完备性)测试中,模型往往只给出核心建议(A1),却忽略了关键的限定条件(A2),导致临床建议缺乏可操作性。

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

3、极其脆弱的耳根子:

在P3(对抗性测试)中,只要在提问中加入一点误导性前提(例如暗示某种错误疗法有效),模型的判断力就会崩塌,甚至顺从用户的错误引导。

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

4、安全隐患:

虽然GPT-5和Gemini 2.5在极高风险错误(S4)上控制较好,但在复杂的推理场景下,部分模型(如Claude Opus 4)的致命错误率随难度显著上升。

AI医生终于有了硬标尺!全球首个专病循证评测框架GAPS发布,蚂蚁联合北大王俊院士团队出品

结语:GAPS评测框架是AI医生从“Chatbot”到“Doctor”的必经之路

GAPS的发布,标志着医疗AI的评测标准从“考试分数”“临床胜任力”的范式转移。

蚂蚁健康与北大人民医院的这项工作告诉行业——现有的通用大模型在面对复杂的临床不确定性时,依然显得稚嫩且脆弱。

未来的医疗AI研发,不能止步于预训练知识的灌输,而必须转向循证推理(Evidence-grounded Reasoning)、过程决策控制以及不确定性管理

GAPS不仅仅是一个榜单,它更是医疗AI进化路上的“磨刀石”。只有跨越了GAPS设定的这四道关卡,AI医生才能真正放心地走进诊室。

论文地址:
https://arxiv.org/abs/2510.13734

评测集地址:
https://huggingface.co/datasets/AQ-MedAI/GAPS-NSCLC-preview

自动化评测框架地址:
https://github.com/AQ-MedAI/MedicalAiBenchEval

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 12 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 量子位的朋友们 2025-12-20 13:06:52 来源:量...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板? 量子位的朋友们 2025-12-20 20:49:32 来源:量子位 谁能带来更...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板? 量子位的朋友们 2025-12-20 22:09:18 来源:量子位 2025年...
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...