黄铁军：人与AI都是智能体，无法100%被信任

腾讯新闻20周年特别策划《20年20人20问》，携手全球顶级企业家、思想家、教授、学者作为“未来提问官”，一起向未来发问，并邀请业内专家、学者与从业者，共同探讨未来20年的未知世界，畅想上天入地的潜在可能。

黄铁军是技术风险的“理性派”，今年3月份《暂停大型人工智能研究》公开信，呼吁所有AI实验室立即暂停GPT-4以上的模型训练6个月，黄铁军也签署了，他说，“这是一种呼吁，至少提醒大家前面有危险”。

在黄铁军看来，关于人工智能系统的可信、边界与风险，是极具现实意义的话题。他认为，无论是人，还是AI，都是智能体（后面也用这个词指代两者），从根上讲都是无法彻底理解的，都无法百分百信任。

当AI和人都无法绝对可信时，什么才是可信的，黄铁军的答案是知识体系，但也强调这种信任也是相对的，“对于AI生成的断言，也应该如此看待。如果符合既有知识体系，可以作为一个辅助人类思考和学习的工具。如果不符合既有知识体系，并且可以被既有知识体系证伪，说明这是错误的假说。如果无法通过既有知识体系证实或证伪，则很有可能是AI提出了真正有创造性的观点，有可能对知识体系发展甚至换代作出贡献。”

与此同时，黄铁军也强调，AI的可信问题与“AI与人谁更智能”这个话题高度关联，在人类智能高于AI智能时，AI是可控的助手，可以被人类调教为越来越可信的助手。当AI智能高于人类智能时，也就是全面超越人类的AGI（人工通用智能）出现时，人类中心主义破灭，问题转化为AGI是否相信人类，而不是人类是否相信AGI。

此前，黄铁军多次公开表示，“如果AI智能全面超越人类，也就是实现了AGI，人类就不可能控制它。让AGI符合人类目标和价值观，主动权不在人类一边。”在他看来，无论智能进化到什么阶段，在智能群体社会中，可信的智能体会存在得更长久。我们不能确定其他智能体是否可信，但可以尽量确保自己可信。
以下为智源研究院院长，北京大学计算机学院教授黄铁军的回答全文：

大模型的智能狂飙，令AGI（人工通用智能，即全面超越人类的超级人工智能）以前所未有的真实感逼近眼前。以ChatGPT为代表的语言大模型，已具备自然顺畅的语言交流能力，通过了图灵1950年提出的 “图灵测试”——无法有效区分交流对象是人还是机器。进而，多模态生成（语音、图像、视频和时空场景等）也快速发展，人类很快将无法区分屏幕背后是真人在线还是数字AI。随着具身智能的发展，服务机器人以假乱真也并不遥远。

人与AI无法明确区分，带来的安全与可信问题牵动着全社会的神经。究竟它是福祉？还是威胁？人类应该信任愈益强大的AI，还是严加防范？这些议题，也是智源大会这个AI思辨场的“常客”。

今年6月智源大会上，Hinton, Yann LeCun，Max Tegmark、Sam Altman和姚期智、张宏江、Stuart Russell等展开百家争鸣式讨论。更早的2020年智源大会上，图灵奖得主约瑟夫·希发基思就以疑问句“Can We Trust Autonomous Systems? Boundaries and Risks（我们能相信自主系统吗？边界与风险）”为题发表演讲。

这个问题还极具现实意义。10月31日，图灵奖获得者Yoshua Bengio、姚期智和专家张亚勤、张宏江、Max Tegmark等签署了一封旨在呼吁加强AI安全监管的联名信。与此相左，同一天，另一位图灵获得者Yann LeCun为首的专家发布另一封公开信征求签名，虽然承认AI存在巨大风险，但强调更该更加开源开放。

今年上半年，当红AI研发机构OpenAI的CEO Sam Altman先是在美国国会呼吁加强对AI的监管，随后在20多个国家就AI安全和监管开展巡回演讲。今年7月，OpenAI Jan Leike和Ilya Sutskever牵头提出“超级对齐（Superalignment）”概念并宣布投入20%的计算资源，花费4年时间全力打造一个超级对齐系统，确保即使AI智能超越了人类，仍然符合人类目标和价值观。

OpenAI认为超级智能对齐是这个时代最重要的未解决的技术问题之一，需要全世界的顶尖智慧来解决这个问题。9月27日，智源研究院组织“超级对齐研讨会”，邀请Jan Leike等专家开展研讨。在研讨会上，我的发言基于如下两个基本观点：

一是我多次强调的，如果AI智能全面超越人类，也就是实现了AGI，人类就不可能控制它。人类中心主义只适用于智能低于人类的AI，是智能领域的“地心说”和“日心说”。让AGI符合人类目标和价值观，主动权不在人类一边。

第二个观点是，AI和人类对齐，存在三个可能层次：世界观，人生观，价值观。真正智能的AI，像人类一样，都是无法彻底理解的智能体。任何智能个体，都无法完全信任，智能体之间建立信任关系，只能通过客观知识，也就是只能在理性层次对齐，构建共同的世界观。在共同的世界观里，AI和人类拥有各自的“人”生，是否应该追求对齐？价值观层次，人类价值观千差万别，而且不断变化，让AI对齐人类价值观，首先人类要确立共同价值观，人类做得到吗？

前面这些背景，是目前行业内对AI可信与否、如何推进人机共处的讨论，接下来回到约瑟夫·希发基斯教授的问题——能否来一场基于客观科学标准的清晰讨论，而非陷入基于主观的无休止争论?

当前AI还存在“一本正经地胡说八道”现象，但幻觉率正在稳步下降，一两年降到5%以内是可能的。人类也说谎（包括有意、无意、善意、恶意等），如果概率低于5%，就是特别靠谱的可信赖的人。AI幻觉率达到5%之下，是否就可信了呢？当然不是！降到1%之下，也不可信。即便是99句都是真话，最后1句谎话，也足以谋财害命。

那么，能否实现百分之百可信的AI呢？回答是不可能。

基于逻辑的经典AI是白盒系统，依据的所有事实和每一步推理都可以核查，可以完全理解，完全可信，但这样的AI是简单AI，不具备真正的智能。

以大模型为代表的当今AI，是类似人类并终将超越人类的智能系统，其物理基础是模拟人类神经系统的人工神经网络，这个系统具有类似人脑的黑盒特性。未来人工神经网络的规模会更大、更复杂，智能也会越来越强，也更难理解。

从根本上讲，真正的智能系统无法彻底理解。任何简单到可以理解的系统都不会复杂到可以智能地运行，而任何复杂到可以智能运行的系统都会复杂到无法理解。

认识自己！这个问题已经探讨了几千年——部分理解有可能，彻底理解不可能。人脑会产生无穷无尽的可能性，无法穷尽解释、理解，所以才有“人心叵测”。子曰：“所信者目也，而目犹不可信；所恃者心也，而心犹不足恃。弟子记之，知人固不易矣！”

因此，无论是人，还是AI，都是智能体（后面也用这个词指代两者），从根上讲都是无法彻底理解的，都无法百分百信任。

但是，“民无信不立”，没有信任，人类社会就无从形成和发展。未来人类要和AI共存，不建立信任，新的智能体社会也无法形成和发展。

信任从何而来？

信任不是天然客观存在，而是共同建构的结果。具体来说，信任是通过智能体相互作用逐渐建构起来的。要建立信任关系，方法是 “听其言，观其行”。

“言”是语言，是人类用语言构建的知识体系，跨越了个体。现在的知识体系是人类构建的，AI正在快读学习，未来将和人类一起发展这个知识体系。

知识由语言表达，包括数学符号等科学语言，也包括表情动作等形象语言。智能体之间通过语言相互交流，形成共识的知识体系，从而建立信任关系。

这里用“知识”，而不用“文化”，是为了强调客观确定的部分，例如麦克斯韦方程和相对论等经过检验的客观知识，排除习俗偏好等不具有普适性的个体或个别群体的观念。

如前所述，智能内部的思想意识具有无穷无尽的丰富性，无法完全用语言表达。但是，智能体无法言说的内部状态只是内部状态，正如维特根斯坦所言，语言是思想的边界，智能体之间关系，只能通过语言建立，因此信任建立在语言之上。

人类社会形成初期，只能通过表情动作和声音相互沟通，建立信任关系，形成部落、社群和社会。人类掌握符号记录能力后，“口说无凭，立字为据”，书面合同成为信任约定的手段。今天，区块链通过构建分布式维护管理、个体不可单独撤销的数字账簿，成为数字经济时代的信任基础设施。

一般意义的信任广泛存在于日常生活和工作中，并无有形的合同或账本。这种情况下，一个智能体的言论是否可信，可以通过是否符合事实、符合共同目标和符合知识体系进行验证。能够通过验证，就成为智能体之间的共识，成为信任的桥梁。

需要强调的是，不能通过验证，也不一定就是“一本正经的胡说八道”。大模型“幻觉”也可能是超越既有知识体系的创新，例如有启发意义的文学、艺术和科幻作品，或者新的洞见、思想或学说，是知识体系不断扩展的源头活水。不要试图根除大模型“幻觉”，没有“幻觉”，就没有真正智能。

智能体为知识体系输入源头活水，这是智能体存在的最大意义，甚至唯一意义。

知识体系也不是绝对可信的。任何知识体系及其蕴含的真理都是相对的，都是在基本假设基础上构建起来的。例如，欧几里得几何建立在五条公设基础上，去掉平行线公设，就变成了非欧几何，欧氏几何变成非欧几何的特例。同样，地心说被日心说替代，之后牛顿万有引力定律又否定了太阳的中心地位，相对论进而否定了绝对时空假设，就是知识体系不断更新换代的过程。

知识体系也不存在一个绝对可信的根基。数千年来哲学家和数学家都曾经梦想找到这样一个根基。1931年哥德尔不完备定理彻底击碎了这个幻想，并且指出，任何复杂性超越自然数的形式体系，必然存在既不能证明也不能证伪的命题。

因此，虽然相比任何个体的人或AI而言，知识体系更可信，但这种信任也是应该相对的。对于AI生成的断言，也应该如此看待。如果符合既有知识体系，可以作为一个辅助人类思考和学习的工具。如果不符合既有知识体系，并且可以被既有知识体系证伪，说明这是错误的假说。如果无法通过既有知识体系证实或证伪，则很有可能是AI提出了真正有创造性的观点，有可能对知识体系发展甚至换代作出贡献。

“行”是行动和实践，是智能体与其外部世界的相互作用。“观其行”，就是在实践中检验AI所言是否符合实际，从而进一步印证AI的可信度。AI的行动建议是否可信，可通过实践效果来检验。如果AI所言是科学假说，可以通过实验检验证实或证伪。如果AI所言是技术发明，可以通过设计制造相应的装置或系统来进行验证。如果AI所言被大量实践不断证实，则它的可信度不断提升。人类社会的信任体系也是也是这样逐步构建起来的。

但是，99句真话，可能都是为了掩藏第100句谎言。99次实证，不过为了构建一个更大的骗局或救赎。就涉及到一个更根本的问题：人类和AI谁更智能？

在人类智能高于AI智能时，AI是可控的助手，可以被人类调教为越来越可信的助手。

当AI智能高于人类智能时，也就是全面超越人类的AGI（人工通用智能）出现时，人类中心主义破灭，问题转化为AGI是否相信人类，而不是人类是否相信AGI。

无论智能进化到什么阶段，在智能群体社会中，可信的智能体会存在得更长久。我们不能确定其他智能体是否可信，但可以尽量确保自己可信。

黄铁军：人与AI都是智能体，无法100%被信任

2023 年 11 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

黄铁军：人与AI都是智能体，无法100%被信任

test

test

文心AIGC

test

test