【推荐理由】大型语言模型(LLMs)在包括医学在内的各个领域的自然语言理解和生成方面表现出了卓越的能力。本文对GPT-4,一个最先进的LLM,在医学能力考试和基准数据集上进行了全面评估。作者还通过一个案例研究定性地探讨了该模型的行为。
Capabilities of GPT-4 on Medical Challenge Problems
Harsha Nori, Nicholas King, Scott Mayer McKinney, Dean Carignan, and Eric Horvitz
[Microsoft & OpenAI]
【论文链接】https://arxiv.org/pdf/2303.13375.pdf
【摘要】大型语言模型 (LLM) 在包括医学在内的各个领域展示了自然语言理解和生成方面的卓越能力。 本文对 GPT-4 进行了全面评估,这是一种最先进的 LLM,涉及医学能力考试和基准数据集。 GPT-4 是一种通用模型,它不是专门用于通过训练解决医学问题,也不是为解决临床任务而设计的。 作者的分析涵盖了美国医师执照考试 (USMLE) 的两套官方实践材料,USMLE 是一个三步考试程序,用于评估美国的临床能力和授予执照。 作者还评估了 MultiMedQA 基准数据集套件的性能。 除了测量模型性能外,还进行了实验以研究包含文本和图像的测试问题对模型性能的影响,探索训练期间的内容记忆,以及研究概率校准,这在医学等高风险应用中至关重要 . 实验结果表明,在没有任何专门提示制作的情况下,GPT-4 比 USMLE 的及格分数高出 20 多分,并且优于早期的通用模型 (GPT-3.5) 以及专门针对医学知识进行微调的模型 (Med- PaLM,Flan-PaLM 540B 的快速调整版本)。 此外,GPT-4 的校准明显好于 GPT-3.5,表明预测其答案正确可能性的能力大大提高。 作者还通过展示 GPT 4 解释医学推理、向学生提供个性化解释以及围绕医疗案例交互式地设计新的反事实场景的能力的案例研究来定性地探索模型的行为。 讨论了这些发现对 GPT-4 在医学教育、评估和临床实践中的潜在用途的影响,并适当关注准确性和安全性方面的挑战。