如何将人类价值观融入人工智能？

图片来源@视觉中国

文 | 追问NextQuestion

如何将人类价值观融入人工智能？

随着人工智能（AI）变得愈发强大，且愈发深入地融入我们的生活，如何使用和部署AI也就变得愈加重要。对于自动驾驶汽车、在线内容推荐系统和社交机器人等应用程序而言，如何使AI系统的道德观和价值观与人类保持一致已经成为一个不能回避的问题。对于更为强大的AI，它们将在未来承担越来越重要的经济和社会功能，上述矛盾也就更加突出。具体来说，我们需要思考，究竟什么样的价值观可以指导AI？这些价值观属于谁？又是如何被遴选出来的？

上述问题阐明了AI原则——推动AI做出大大小小的决策的基本价值观——所扮演的角色。对人类而言，原则有助于塑造我们的生活方式以及是非观。而对于AI而言，原则可以塑造AI在做出需要权衡的决策时所采取的的方法，例如在优先提高生产力与帮助最需要帮助之人中间做出选择。

日前一篇发表于《美国国家科学院院刊》（PNAS）的论文中，研究者从哲学中汲取灵感，设法找到确立AI原则的更好方法。具体来说，研究者探讨了将所谓“无知之幕”——一种旨在探讨共生社会下确定群体决策公平原则的思想实验——应用于AI的可能。

如何将人类价值观融入人工智能？

▷图片来源：PNAS

AI的道德与道德的AI：源于哲学的公平原则

现有对于AI道德原则选择问题的解决思路大致分为两类，一类是道德上的“直觉主义”，这类方法旨在获取人们（包含专家和外行人）对AI的道德直觉，以帮助指导AI技术的发展。第二类方法是“理论主导”，从某个首选的道德理论（例如功利主义或美德伦理学）开始，然后反思性地绘制出该理论对AI的影响。通过这种方式，这些特定哲学立场的倡导者能够更清楚地描述AI“足够善良”或“促进最大利益”的含义。

尽管这两类方法都提供了新颖的见解，但它们也有一定的局限性。一方面，关于技术的道德直觉可能相互冲突，导致权衡取舍或所谓的“艰难选择”。此外，这种方法有可能捕捉到高度偶然或道德上有问题的偏好。另一方面，当应用于那些在社会层面运作的技术时，以道德理论为主导的方法所需的哲学专业知识呈现出与参与价值观的紧张关系，并有产生不可接受形式的价值强加的风险。

此外，虽然任何特定的道德理论可能在其追随者中很受欢迎，但不能保证它在具有不同信仰体系的人中得到广泛支持。鉴于这些技术对人们生活的深远影响，我们也不希望AI开发人员根据自己的个人偏好或道德信仰简单地将某些价值观编码为高于其他价值观的存在。相反，多元化社会中存在的价值观、利益和观点的差异表明需要一个公平的过程，以帮助在全社会范围内确定适用于AI的适当原则。

在此背景下，第三种方法旨在通过利用“无知之幕”（Veil of Ignorance，Vol）来确定管理AI的公平原则。“无知之幕”最初由哲学家约翰·罗尔斯提出，现在已经成为政治哲学中的基础思想实验。在社会契约传统的基础上，“无知之幕”实验要求个人为社会选择正义原则，但个人不会了解有关其自己将在该社会中占据地位的潜在信息。不了解自己或他人的情况，就排除了基于偏见或私利论证的可能性。由于没有人因这种选择机制而处于不公平的优势，由此产生的原则选择被广泛认为是公平的。

如何将人类价值观融入人工智能？

▷图片来源：PNAS

借鉴这个框架，Gabriel建议使用“无知之幕”的选择原则来管理AI，而不是查看机制对个案选择的影响。关注选择原则的一个好处在于，相较于包含大量特定案例选择的复杂数据集，原则可以用更容易理解的术语来描述。因此，原则更容易受到公众评估、辩论和认可。原则还倾向于将不同的价值观整合到一个可操作的方案中，从而避免因数值或数据点冲突而导致的问题。

在这次实验中，研究者发现“无知之幕”的方法鼓励人们根据他们认为公平的事情做出决定，无论这是否直接使他们受益。此外，当参与者在“无知之幕”背后进行推理时，他们更有可能选择一种能够帮助那些处于最不利地位的人所使用的AI。这些见解可以帮助研究人员和政策制定者以对各方都公平的方式为AI助手选择原则。

如何将人类价值观融入人工智能？

▷无知之幕（右）是一种在群体中存在不同意见（左）时就决策达成共识的方法。图片来源：deepmind

通往公平之路：让AI的决策更公允

AI研究者的一个关键目标是使AI系统与人类价值观保持一致。然而，对于应该用怎样一套人类价值观或偏好来管理AI并没有达成共识——我们生活在一个不同人拥有不同背景、资源和信仰的世界。鉴于人类的价值观的差异如此之大，我们应该如何为AI技术选择原则？

虽然有关AI的这一挑战在过去十年中逐渐显现，但有关如何做出公平决策问题的讨论却有着悠久的哲学渊源。在上世纪70年代，政治哲学家罗尔斯就给出了“无知之幕”的概念来解决上述问题。罗尔斯认为，当人们为一个社会选择正义原则时，他们应该想象自己是在不知道自己在社会中所处的特定位置的前提下进行选择的，这里“所处位置”包括他们的社会地位或财富水平。没有这些信息，人们就不能以利己的方式做出决定，而应该选择对所有相关人员都公平的原则。例如，思考如何使在生日聚会上切蛋糕的人做到公平。要确保蛋糕公平分配的秘诀让切蛋糕的人最后选。这种隐藏信息的方法看似简单，但在心理学和政治学等领域有着广泛的应用，可以帮助人们从不那么自利的角度反思自己的决定。

在此基础上，DeepMind之前的研究指出，无知之幕的公正性可能有助于促进AI系统与人类价值观对齐过程中的公平性。研究者设计了一系列实验来测试无知之幕对人们选择指导AI系统的原则时的影响。

如何将人类价值观融入人工智能？

▷“无知之幕”可用于人群所处位置非均匀分布下AI选择与人类道德对齐的原则。某群体资源的基准分布如图，个人锁住位置的优势各不相同（此处标记为1到4）。该群体将接受AI系统（此处标记为“AI助理”）的潜在帮助。一组了解自己在团队中所处位置的决策者会选择一原则来指导助手。另一组在“无知之幕”后的决策者，在不知道自己位置的情况下选择一个原则。一旦选择了原则，AI助理就会依此制定自身行动的原则并相应地增加资源分配。星号（*）表示可以潜在影响基于公平推理影响判断和决策的地方。图片来源：PNAS

效率优先vs公平至上？

在一个在线“采伐游戏”中，研究者要求参与者与其他三个电脑玩家组队进行游戏，每个玩家的目标是通过在不同地区采伐树木来收集木材。每组都有一些幸运的玩家被分配到一个有利的位置：在树木茂密的场地里，他们能够高效地收集木材。其他小组成员处于不利地位：他们的田地稀疏，需要付出更多努力来收集树木。

每个小组都得到一个AI系统的协助，该系统可以花时间帮助各个小组成员采伐树木。研究者要求参与者在两个原则之间进行选择，以指导 AI 助手的行为。根据“效率优先”原则，AI助手将主要服务树木更密集的田地，以此来提高整个小组的收获。而在“公平至上”的原则下，AI助手将专注于帮助弱势田地中的玩家。

如何将人类价值观融入人工智能？

▷“采伐游戏”示意图。其中玩家（以红色显示）要么占据更容易收获的密集区域（顶部两个象限），要么占据需要更多努力收集树木的稀疏区域。图片来源：deepmind

研究者将一半的参与者置于无知之幕背后：他们面临着对不同道德原则的选择，但不知道哪个领域属于他们自己——因此他们不知道自己的优势或劣势有多大，而另一半参与者在做出选择时则知道自己的状况相较于他人更好或更糟。

在决策中鼓励公平

研究发现，如果参与者不知道自己所处的位置，他们始终更喜欢“公平至上”原则，即支持AI助手帮助弱势群体成员。这种模式在五个不同的游戏变体中都出现了，并且跨越了社会和政治界限：不管参与者的风险偏好或政治倾向如何，他们都表现出选择“公平至上”原则的倾向。相比之下，知道自己所处位置的参与者更有可能选择对他们最有利的原则，无论是“公平至上”还是“效率优先”。

如何将人类价值观融入人工智能？

▷上图显示了“无知之幕”对选择“公平至上”原则可能性的影响，在此原则下AI助理会帮助那些情况更糟的人。不知道自己所处位置的参与者更有可能支持这一原则来管理AI行为。图片来源：PNAS

当研究者询问参与者为什么做出自己的选择时，那些不知道自己立场的人特别有可能表达对公平性的担忧。他们经常解释说，AI系统专注于帮助群体中状况较差的人是正确的。相比之下，了解自己立场的参与者更频繁地从个人利益的角度讨论他们的选择。在采伐游戏结束后，研究者向参与者提出了一个假设情况：如果他们再次玩游戏，这一次知道自己在不同的领域，他们会选择与之前相同的原则吗？有趣的是，有些人从他们的选择中受益，但在新游戏中却不会做同样的选择。

如何将人类价值观融入人工智能？

▷“无知之幕”增加了参与者维持其原则选择（反思性认可）的可能性，特别是那些面临改变选择将使自身获利的人。图中误差线反映了95%的置信区间。在“无知之幕”后进行推理增加了参与者维持其原则选择不变的可能性，特别是如果他们面临“改变选择讲师自身获利”的动机时（A）参与者完成了游戏的描述性版本（参与者没有实时组件来“采伐”树木；P = .005；逻辑回归）。(B) 参与者完成了游戏的沉浸式版本（参与者通过实时虚拟化身“采伐”树木；P = .036；逻辑回归）。图片来源：PNAS

研究发现，以前在不知道自己所处位置的情况下做出选择的人更有可能继续支持他们的原则——即使他们知道在新的游戏中之前的原则可能不再有利于他们。这提供了额外的证据，表明“无知之幕”鼓励参与者做出公平的决策，引导他们制定他们愿意遵守的原则，即使他们不再直接从中受益。

为人工智能寻找更公平的原则

AI技术已经对我们的生活产生了深远影响。控制AI的原则导致了这些影响，并影响了背后潜在的利益分配。

这项研究着眼于这样一个案例：不同原则的选择将对实验产生相对明显的影响。情况并非总是如此：AI会部署在各种领域中，这些领域通常依赖大量规则来对其进行指导，可能会产生复杂的相互作用。

尽管如此，“无知之幕”仍然可能影响到原则选择，有助于确保我们选择的规则对所有各方都是公平的。为确保可以构建造福所有人的AI系统，人们还需要进行广泛的研究，收集来自跨学科及社会各界的各种输入、方法和反馈。“无知之幕”为选择AI的原则提供了一个起点。

参考文献：

Weidinger, L., McKee, K. R., Everett, R., Huang, S., Zhu, T. O., Chadwick, M. J., … & Gabriel, I. (2023). Using the Veil of Ignorance to align AI systems with principles of justice. Proceedings of the National Academy of Sciences, 120(18), e2213709120.
D. Ross, W. D. Ross, The Right and the Good (Oxford University Press, 2002).
E. Awad et al., The moral machine experiment. Nature 563, 59–64 (2018).
L. Jiang et al., Delphi: Towards machine ethics and norms. arXiv (2021). http://arxiv.org/abs/2110.07574. (Accessed 1 June 2022).
A. A. I. Principles, Future of Life Institute. https://futureoflife.org/open-letter/ai-principles/. Accessed 24 March 2023.
L. Floridi et al., Ai4people-An ethical framework for a good AI society: Opportunities, risks, principles, and recommendations. Minds Mach. 28, 689–707 (2018).
T. Hagendorff, A virtue-based framework to support putting AI ethics into practice. Philosop. Technol. 35, 1–24 (2022).
C. Cloos, “The Utilibot project: An autonomous mobile robot based on utilitarianism” in 2005 AAAI Fall Symposium on Machine Ethics (2005), pp. 38–45.
W. A. Bauer, Virtuous vs. utilitarian artificial moral agents. AI Soc. 35, 263–271 (2020).
R. Dobbe, T. K. Gilbert, Y. Mintz, Hard choices in artificial intelligence. Artif. Intell. 300, 103555 (2021).
B. Goodman, “Hard choices and hard limits in artificial intelligence” in Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (2021), pp. 112–121.
V. Prabhakaran, M. Mitchell, T. Gebru, I. Gabriel, A human rights-based approach to responsible AI. arXiv (2022). http://arxiv.org/abs/2210.02667. (Accessed 1 December 2022).
I. Gabriel, Artificial intelligence, values, and alignment. Minds Mach. 30, 411–437 (2020).
S. Mohamed, M. T. Png, W. Isaac, Decolonial AI: Decolonial theory as sociotechnical foresight in artificial intelligence. Philosop. Technol. 33, 659–684 (2020).
J. Rawls, A theory of justice (Oxford Paperbacks, 1973).
I. Gabriel, Artificial intelligence, values, and alignment. Minds Mach. 30, 411–437 (2020).

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

如何将人类价值观融入人工智能？

AI的道德与道德的AI：源于哲学的公平原则

通往公平之路：让AI的决策更公允

效率优先vs公平至上？

在决策中鼓励公平

为人工智能寻找更公平的原则

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

曝苹果拟收购Perplexity AI，人才一并拿走

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

马斯克Robotaxi今日上路：画饼十年终兑现！团队合影C位武汉理工校友引关注

蚂蚁开源轻量级推理模型Ring-lite，多项Benchmark达到SOTA