Nat. Med. | 医疗AI聊天机器人与患者交谈是否安全

772次阅读
没有评论

编译 | 曾全晨

审稿 | 王建民

今天为大家介绍的是来自Paul Webster的一篇短文。基于大型语言模型人工智能聊天机器人可以通过医学考试,但它们的诊断通常不准确。

Nat. Med. | 医疗AI聊天机器人与患者交谈是否安全

人工智能(AI)驱动的聊天机器人能够产生类似人类语言的文本,这是令人兴奋的消息。去年十一月,总部位于旧金山的科技公司OpenAI发布了第一款基于大型语言模型的聊天机器人ChatGPT,仅在一周内就有超过一百万人注册使用。到了二月份,估计每月有一亿人在使用ChatGPT。现在有许多不同的聊天机器人可供选择,其中最知名的是ChatGPT和由谷歌推出的Bard。这两款聊天机器人都能够生成计算机生成的文本,显示出令人难以置信的类人研究和写作能力。

你怕了吗?

聊天机器人在令人惊奇的同时也引起了很多担忧。人们正在就聊天机器人所预示的未来进行激烈的争论,包括可能会被自动化的工作岗位。对于医疗从业者和研究人员来说,在这场辩论中的赌注尤其高:考虑到他们对患者肩负的责任,让聊天机器人参与他们的工作可能会被认为是不负责任的行为。患者现在也必须考虑是否信任聊天机器人,以及他们的医生是否可能使用人工智能工具。但在每年进行3000亿次有关医学主题的谷歌搜索的背景下,聊天机器人在医学中的应用可能成为一个新的颠覆性力量。这些担忧也在科技行业内广泛存在。今年三月,超过1,000位科技行业领袖发布了一封公开信,呼吁暂停人工智能的发展。不久之后,人工智能促进协会的领导人发出了更为强烈的警告。甚至被誉为人工智能“教父”的Geoffrey Hinton现在也表示担忧,认为像ChatGPT这样的系统可能很快会超越我们,表现得更聪明、更善谈和更善写。

需要审查吗?

直到几个月前,医疗聊天机器人在人工智能研究领域仍然是一个小众领域。去年三月,当谷歌举行新应用Med-PaLM的发布会(该应用具有专业能力来回答医学问题),只有三名记者参加了会议。尽管如此,在全球价值1,400亿美元的医疗信息技术行业内,对于有能力进行原创分析的AI聊天机器人的兴趣正在迅速增长,它们的用途也正在被探索。这些用途包括从基本的临床笔记记录,到协助各种类型的诊断,到为医学影像处理和研究生成合成健康数据。美国食品和药物管理局(FDA)的官员正在努力跟紧和监管不断增长的医疗AI设备的使用,包括聊天机器人。在2022年9月发布的一份26页指南中,他们指出“支持或向患者或照顾者提供临床建议”的“软件功能”(与获得许可的医疗保健提供者不同)符合需要FDA审查和批准的医疗设备的定义。只有在人类完全掌握软件功能时,这些产品才能规避FDA的审查。医疗保健提供者必须“独立审查软件所提出的建议的基础”,以便他们不主要依赖来自人工智能的建议,而是依靠自己的判断来做临床决策。

简而言之,每当一个受过医学知识训练过的聊天机器人或其他AI辅助设备打算独立运行,都需要经过FDA审查和批准。FDA在2022年9月发布的相关指南早于ChatGPT及其竞争对手模型的公开发布,但医疗聊天机器人已经非常先进。谷歌的聊天机器人研究员Vivek Nataranjan在去年三月对记者表示,谷歌公司开发了一个专门针对医学使用的高级聊天机器人,这是由“非常强大的语言模型”和“非常深厚的医学领域专业知识”相结合的成果。Nataranjan称谷歌的产品为Med-PaLM,称其为“飞跃性的成就”。Nataranjan说,Med-PaLM轻松通过了美国医学执照考试,谷歌首个版本的Med-PaLM得分为67。最新版本的Med-PALM 2得分为85,谷歌称其为“专家”医生水平。谷歌表示,这种类型的大型语言模型在医学中的潜在应用包括知识检索、临床决策支持等等。

数据缺失

Med-PaLM是由谷歌基于MultiMedQA进行训练的,MultiMedQA是七个标准化医学数据集的组合,其中包括大量的医学问题和答案(图1)。其中包括谷歌的HealthSearchQA数据库,该数据库包含3,375个常见的消费者医学问题。总体而言,PaLM的训练语料库包含了表示网页、维基百科文章、源代码等等的7800亿个token。然而,PaLM的知识库有限,谷歌健康研究主管Alan Karthikesalingam承认了这一点。即使是最复杂的互联网挖掘技术也无法访问同行评审的医学文献,其中许多被世界出版商所保护。Karthikesalingam解释说:“谷歌利用在公开互联网上可用的数据。”很少有医学期刊是完全开放获取的,这使得许多健康研究无法通过Med-PaLM获得。这可能解释了为什么Med-PaLM尚未准备好进行广泛使用,尽管谷歌在四月份宣布计划将其提供给一组有限测试的客户。Karthikesalingam承认:“一个系统可能听起来合理,但可能存在非常微妙的知识差距。”

保护用户安全

耶鲁医学院的神经科学家、耶鲁纽黑文卫生系统临床伦理中心的首任主任Benjamin Tolchin也警告说,尽管ChatGPT引发了一阵浪潮,但医疗聊天机器人前进的道路可能会是漫长而曲折的。“我使用过ChatGPT,对它的交流方式和详细程度非常印象深刻,”Tolchin解释道,“它在任何我以前见过的AI或聊天机器人技术之上,显示出在临床应用方面有真正的潜力。但是,我们必须问自己,‘当患者和临床医生开始寻求它的指导时会发生什么?’”为了回答这个问题,Tolchin向ChatGPT提出了一系列临床问题,描述了患者并要求诊断。“它的回答相当于一个受过良好训练但在临床方面有些糊涂的医学学生,”Tolchin回忆道,“它懂得的刚好足够危险。”为了保障患者的安全,Tolchin建议在医学中使用大型语言模型时制定医疗管理框架,重点是知情同意。他认为,在临床医生使用这些工具时,应该强制执行这一规定,同时仔细监督它们的使用。

OpenAI,ChatGPT的制造商,也呼吁谨慎对待医疗语言模型。在一封电子邮件中,该公司告知《自然医学》杂志,其模型不应用于医学诊断、分诊或处理生命威胁问题。在他们于2023年关于MultiMedQA的论文中,OpenAI的研究人员承认了“使用LLM来诊断或治疗疾病可能带来的潜在危害”。一些人对大型语言模型的事实不准确性表示担忧并呼吁进行管控措施,OpenAI的研究人员也认同了这一点,这可能包括要求AI提供商对大型语言模型施加使用限制、识别AI生成的内容等控制措施。

参考资料

Webster, P. Medical AI chatbots: are they safe to talk to patients?. Nat Med (2023). 

https://doi.org/10.1038/s41591-023-02535-w

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy