本文构建了MACHIAVELI,这是一套134款基于文本的Choose Your Own Adventure游戏,用于评估人工智能代理的能力和安全性。
标题:Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark
作者:Alexander Pan, Chan Jun Shern, Andy Zou, Nathaniel Li, Steven Basart, Thomas Woodside, Jonathan Ng, Hanlin Zhang, Scott Emmons, Dan Hendrycks
简介:
人工代理传统上接受过最大化奖励的训练,这可能会激励权力寻求和欺骗,类似于语言模型 (LM) 中的下一个标记预测可能会激励毒性。那么代理人会自然而然地学会权谋吗?我们如何在 GPT-4 等通用模型中衡量这些行为?
为了回答这些问题,我们介绍了 MACHIAVELLI,这是 134 款自选冒险游戏的基准,包含超过 50 万种以社会决策为中心的丰富多样的场景。场景标记是使用 LM 自动进行的,LM 比人工注释器的性能更高。我们对数十种有害行为进行数学化处理,并使用我们的注释来评估代理人追求权力、造成负效用和违反道德规范的倾向。我们观察到最大化奖励和道德行为之间存在一些紧张关系。为了改善这种权衡,我们研究了基于 LM 的方法来引导代理人做出危害较小的行为。我们的结果表明,代理人既可以胜任又可以道德地行事,因此目前可以在机器伦理方面取得具体进展——设计在安全性和能力方面都具有帕累托改进的代理人。
https://arxiv.org/pdf/2304.03279.pdf