Inducing anxiety in large language models increases exploration and bias
解决问题:该论文旨在探讨大型语言模型的行为是否会受到情绪诱导的影响,以及这种影响是否会导致模型的行为出现偏差。这是一个新问题,也是当前大型语言模型领域的研究热点之一。
关键思路:论文使用了计算精神病学的框架来研究大型语言模型的行为,通过对GPT-3.5进行情绪诱导实验,发现情绪诱导可以影响模型的决策行为和偏见,这表明大型语言模型的行为受到情绪的影响,需要更好的提示工程方法来减少偏见。
其他亮点:该论文的实验设计严谨,使用了公认的情绪问卷,并对模型的行为进行了多个任务的测试,包括探索性决策和偏见测试。论文没有开源代码,但提供了实验数据。这项研究对于深入研究大型语言模型的行为和提示工程方法具有重要意义。
关于作者:Julian Coda-Forno、Kristin Witte、Akshay K. Jagadish、Marcel Binz、Zeynep Akata和Eric Schulz分别来自不同的机构,他们都是该领域的专家。以Zeynep Akata为例,她之前的代表作包括“Multi-modal Self-supervision from Generalized Data Transformations”和“Unsupervised Learning of Object Keypoints for Perception and Control”。
相关研究:近期的相关研究包括“Language Models are Few-Shot Learners”(Tom B. Brown等)、“The GPT-2 1.5B Release”(OpenAI)和“CTRL: A Conditional Transformer Language Model for Controllable Generation”(Thibault Févry等)。这些研究都是关于大型语言模型的行为和能力的研究,与本论文有一定的联系。
论文摘要:本文探讨了大型语言模型的行为,提出了将计算精神病学的视角应用于这些模型的产出,以了解它们何时表现出色,何时失败和出现问题。研究者们以Generative Pre-Trained Transformer 3.5为例,对其进行了常见精神疾病测试,并发现该模型对焦虑问卷的反应比人类受试者更强烈。此外,情感诱导也能够预测性地改变GPT-3.5的反应。情感诱导不仅影响了GPT-3.5在测量探索性决策的认知任务中的行为,还影响了其在先前已建立的测量种族主义和能力主义等偏见的任务中的行为。关键是,当文本诱导焦虑时,GPT-3.5的偏见显著增加。因此,对于大型语言模型,提示的传达方式很可能会对其在应用环境中的行为产生强烈影响。这些结果推进了我们对提示工程的理解,并展示了从计算精神病学中借鉴方法来研究我们越来越多地委托权力和自主权的能力算法的实用性。