精选综述 | 医学数据预训练（机器智能研究MIR）

1,590次阅读

Machine Intelligence Research

医学数据是指与患者护理或临床试验项目相关的健康方面数据。医学数据有很多种类，比如临床影像学数据、生物信号数据、电子健康档案(EHR)、多模态医学数据等。在过去十年中，随着深度神经网络不断发展，新兴的预训练范式已经逐渐占据主导地位，它在数据有限的情况下可显著提高机器学习的表现。近年来，有关医学领域内的预训练研究取得了重大进展。

为了总结这些技术进展，澳大利亚昆士兰大学与阿德莱德大学的研究者们对近年来预训练在医学数据几个大类中取得的进展进行了一个综合全面的调查。文章总结了大量医学领域内的相关刊物和现有基准。值得一提的是，文章简要地介绍了一些预训练方法是如何应用于或研发于医疗数据的。从数据驱动视角出发，文章研究了预训练学习范式在许多医学场景中的广泛应用。除了总结近来有关预训练的研究，本文还基于该领域目前面临的一些挑战，为后续的研究提出了一些展望。文章已发表于MIR 2023年第二期中，全文开放获取！

图片来自Springer

全文下载：

Pre-training in Medical Data: A Survey

Yixuan Qiu, Feng Lin, Weitong Chen & Miao Xu

https://link.springer.com/article/10.1007/s11633-022-1382-8

全文导读

人工智能(AI)已经成为我们生活中无处不在、影响深远的一项技术。基于人工智能的应用程序可以协助用户做决定从而影响他们的日常生活。技术的进步得益于深度学习(DL)的快速发展，尤其得益于卷积神经网络(CNN)、循环神经网络(RNN)和注意力神经网络的广泛使用。这些深度神经网络已经整合到各种研究中，包括几个子领域，比如计算机视觉(CV)和自然语言处理(NLP)。

医学数据分析是AI众多主要子领域中的一个。该任务主要侧重于处理和分析来自不同数据模式的医疗数据，提取最本质的信息，以便帮助医师在诊断时做出精准判定。计算机辅助系统有望成为健康监测和疾病诊断方面的重要工具。当前许多研究都获得了成功，比如处理和分析医学影像、电子健康记录(EHRs)、生物信号、多模态数据等。有研究者们(Hou et al.)在肿瘤前期阶段用CNN进行诊断，制定早期干预治疗计划，极大提高了患者的存活率。基于电子健康记录产生的个性化建议也被用来改进对于患者的护理。另有研究者们(Qiu et al.)通过帮助护理员有效确认心律失常从而挽救了更多生命。还有研究者(Wang et al.)利用胸透片和相关诊断报告训练了一个模型，用于疾病诊断、相似性研究和影像再生。

尽管现有研究已经取得了巨大成果，但是一些研究发现，数据匮乏仍然是目前运用DNN来处理医学数据的主要挑战之一。一方面，一些医学数据虽然可以轻松获得，但是标记这些收集到的数据则需要巨大的人力财力；另一方面，对于许多罕见或者新型的疾病诊断任务来说，由于数据太少无法获取或因为涉及到隐私问题不便收集，因而数据相当匮乏。数据不足会导致训练出的模型不尽人意，因为很可能造成过拟合和泛化性较差。为了训练出令人满意的模型，研究者提议创建一些大规模数据库。但是，创建大规模标记数据库是极其耗费人力与钱财的，因而建立大规模标记数据库是不现实的。

受到人类学习策略的启发，一些研究者提议使用预训练来解决标记数据不足的问题。根据人类学习策略，学习者可以在已经学过的知识的基础上学习新的技能。比如，学习打网球有助于学习打羽毛球。

正如此前的一项研究总结到，预训练这一技术与迁移学习和自监督学习尤为相关。作为解决数据匮乏问题的关键里程碑之一，迁移学习能够有效探索标记数据，也能充分利用未标记数据。迁移学习是机器学习的子领域，有感于人类的学习过程而设计的。迁移学习通过转移相同或相关领域的信息来学习目标领域的知识。迁移学习的过程包括两步，预训练和微调。在预训练阶段学习通用特征表示，然后将预训练好的模型用于下游任务中，如图1所示。

精选综述 | 医学数据预训练（机器智能研究MIR）

图1 预训练图解

近来方兴未艾的自监督学习是另一种预训练学习范式，它获得了越来越多研究者的关注。这个学习范式主要致力于从未标记数据中提取大量信息。自监督学习无需人力标注就能自行产生监督信息。在当前研究阶段，迁移学习和自监督学习是预训练的两个主流方法。本文将高屋建瓴地介绍这两种预训练方法并对其在医学领域内的应用进行探究。

为什么预训练？

预训练的出现，为通过利用一小部分数据就能高效训练一个有效的模型提供了机会。本节列出了若干个原因，来说明为什么预训练是必要的。首先，使用预训练这个方法源于数据信息的匮乏，包括标记的匮乏和数据的匮乏。数据量的匮乏是指许多种类的数据都不能满足模型训练的需求量，比如一些极度稀缺的地区罕见疾病数据。预训练可以有效弥补这些信息缺失所造成的影响。通过预训练，数据群或数据潜在特点会被模型提取出来，因而对于特定内容具有更强的泛化能力。

第二，使用预训练的模型可以有效加速下游任务的收敛过程。这对于计算资源紧缺的情况尤其有利。

第三，在过去二十年里，随着各行各业的快速发展和各种高性能硬件被生产出来，许多行业每天都产生大量数据，比如医疗行业。但是，人工标记数据库的费用呈指数级上升。因此，有监督预训练方法对数据标注的匮乏存在挑战。自监督预训练能够让我们利用大量未标注数据，在开始下游任务前获得一个好的开端。

另外，随着自监督学习近年来不断取得的突破，许多研究表明，自监督预训练能够减轻在类间不平衡数据集上训练带来的影响。

预训练在医学领域有很多应用。2014年，预训练技术首次被施莱格尔等人（Schlegl et al.）用于医学领域，他们当时提出了一种半监督学习方法来提高肺组织的分类。具体来说，他们采用无监督的策略对模型进行预训练，从没有标签的影像中获取信息。我们主要关注三种模态的数据，使用预训练处理这些数据已经取得了成功：医学影像数据、生物信号和HER数据。此外，多模态也被纳入了考量范畴。比如，使用预训练的BERT模型，通过对EHR数据行语义分析，来预测诊断病情。自监督预训练模型可以完成诸如CT影像数据和核磁共振影像数据进行分类以及分割的任务。电子生物信号可以通过预训练来提取特征，从而辅助预测或诊断。相比于传统模型，在医学领域的应用中使用预训练技术，大大提高了相关任务的效率与准确度。

为什么这项调查是必要的？

组织本次综述调查的原因有二。首先，在过去几年中，许多使用预训练模型的研究在医学领域已经取得了满意的成果，但是对于这些预训练模型系统、综合的介绍却寥寥无几。

第二，虽然当下已有一份关于预训练的综合调查，但是在医学领域中，还没有关于预训练类的专门调查。已有的在医学领域的调查主要关注调查某个具体模态中的预训练模型。而且，大多数有关预训练在医学领域内的调查仅对医学影像中的预训练进行综述，极少数已发表的调查对处理生物信号和EHR数据进行了综述。因此，对医学领域内的预训练方法做一个系统性的综述是具有重要意义的。

就目前而言，本文是第一篇对近来预训练在医学领域(包括医学影像数据、电子生物信号数据(EEG、ECG等)、EHR数据和多模态在内)的创新进行的系统全面总结。

本文对预训练这项技术和分析以一种简单的方式呈现，适合于各种受众。但我们仍然强调，本文的主要目标读者有两类。一类是医学领域内的专业人士并且对研发电脑辅助诊断系统感兴趣的。另一类是机器学习和深度学习领域的专家，想要了解预训练在医学领域内的发展现状。

本文贡献

本文对近年来医学领域中以预学习为基础的技术突破和前沿进展进行了系统介绍。总结了两百多篇对预训练在医学领域的应用作出重要贡献的文献，包括医学领域内最开始引入预训练时期的文献。本文的一些主要贡献如下：

1) 首次对用于医学和临床领域内的预训练技术进行了系统的总结。

2) 本文对医学预训练模型在医学影像、生物信号数据，EHR和多模态四个主要数据类型上的应用进行了总结。

3) 本文总结了医学影像、生物信号和EHR的基准数据库。

本文其余部分结构如下。第2部分简要介绍了医学领域内的基准数据库和预训练的基本模型与方法。第3部分总结了预训练对不同数据库的医学影像分析。第4部分介绍了生物信号中的预训练。第5部分总结了EHR中的最前沿预训练方法。第6部分论述了挑战与对未来的展望。最后一部分对全调查进行了一个总结。

全文下载：

Pre-training in Medical Data: A Survey

Yixuan Qiu, Feng Lin, Weitong Chen & Miao Xu

https://link.springer.com/article/10.1007/s11633-022-1382-8

【本文作者】

纸刊免费寄送

Machine Intelligence Research

MIR为所有读者提供免费寄送纸刊服务，如您对本篇文章感兴趣，请点击下方链接填写收件地址，编辑部将尽快为您免费寄送纸版全文！

说明：如遇特殊原因无法寄达的，将推迟邮寄时间，咨询电话010-82544737

收件信息登记：

https://www.wjx.cn‍/vm/eIyIAAI.aspx#

∨

关于Machine Intelligence Research

Machine Intelligence Research（简称MIR，原刊名International Journal of Automation and Computing）由中国科学院自动化研究所主办，于2022年正式出版。MIR立足国内、面向全球，着眼于服务国家战略需求，刊发机器智能领域最新原创研究性论文、综述、评论等，全面报道国际机器智能领域的基础理论和前沿创新研究成果，促进国际学术交流与学科发展，服务国家人工智能科技进步。期刊入选”中国科技期刊卓越行动计划”，已被ESCI、EI、Scopus、中国科技核心期刊、CSCD等数据库收录。

▼
MIR资讯
▼

精选综述 | 医学数据预训练（机器智能研究MIR）

精选综述 | 医学数据预训练（机器智能研究MIR）

test

test

文心AIGC

test

test

2023 年 4 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

2023 年 4 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30