智能体模拟二战和战国时代！用LLM模拟推演战争，会改变历史吗？

858次阅读

没有评论

新智元报道

编辑：Lumina

【新智元导读】我们是否还有另一个选择，可以让人类完美通关历史？来自密歇根和罗格斯大学的学者利用LLM对历史上的战争进行模拟推演结果，会是我们的参考答案吗？

「我们能在历史的十字路口上避免战争吗？」

整个人类历史上，这个问题不断地被个人、学者、政策制定者、组织们提出、追寻。

近日，来自密歇根大学和罗格斯大学的学者们利用人工智能（AI）和大语言模型（LLM）的最新进展来回答这个问题。

论文地址：https://arxiv.org/abs/2311.17227

研究的最终成果是一个名为 textbf{WarAgent}的由LLM驱动的多智能系统（Multi-Agent System，MAS）。

它可以模拟历史上国际冲突中的参与国、他们的决策以及后果。

尽管这类仿真实验在社会科学的应用中有着悠久的历史，但早期的尝试往往受到计算能力和简化模型的限制。

最新的仿真模拟则采用了LLMs。它能够模拟人类复杂的行为和互动，如斯坦福的人工智能小镇、狼人游戏模拟等。

但在先前这类LLMs的仿真模拟应用的研究中，还没有研究如何应用这些先进技术来模拟国际外交和战争的细微和多面性。

textbf{WarAgent}，则是第一个用于模拟历史事件的、基于LLM的多智能体系统。

这项研究中模拟的冲突有：第一次世界大战、第二次世界大战以及中国的战国时代。

但这种基于LLM的多智能体系统仿真有效性如何判定？MAS又如何有效地再现战略规划和决策过程的历史演变？

触发战争的关键因素是什么？这些因素能够通过基于LLM的多智能体系统仿真被识别吗？

战争是否是历史的必然事件？基于LLM的多智能体系统仿真能够揭示导致战争（或和平）的条件吗？

想弄清楚这些问题，就请继续往下看。

多智能体仿真

多智能体系统（MAS）涉及多个自主智能体（或Agent）的协同工作和通信。

这些智能体通常被设计用来模拟复杂的真实世界或虚拟环境中的行为以及决策过程。

现有的MAS领域大致可以分为三种类型：

推理增强系统：这些系统利用多个智能体的集体智慧来增强问题解决能力。例如，LLM-Debate引入了辩论概念，使智能体能够从同伴那里获得回应，并通过「心理论证」（mental argumentation）过程来精炼解决方案。

ChatEval建立了一个基于角色扮演的多智能体裁判团队，评估由语言模型（LLM）生成的文本质量。

Corex提供了多样化的合作模式，如辩论、审查和检索等模式，以此来提高推理过程的事实性、忠实性和可靠性。

NPC多智能体系统：这些系统在模拟人类行为方面取得了显著进展。例如，Generative Agents模拟了人类行为，并在类似《模拟人生》的沙盒环境中进行展示。

Humanoid Agents则引入了基本需求、情感和关系亲密度等元素，使智能体行为更接近人类。

GPT-Bargaining研究了智能体是否能通过协商游戏自主提高谈判技巧。

生产增强系统：这些系统旨在提高生产效率和效果。例如，MetaGPT是一种基于多智能体对话框架的特殊LLM应用，能够用于自动软件开发等任务。

BOLAA是一个控制模块，可以管理多个协作智能体之间的选择和通信。

OpenAGI结合了LLM和各种工具，用于解决复杂任务。

诸如此类的MAS已经出现了不少，如BabyAGI、AgentVerse、 Camel等。

这些已经应用于现实中的MAS在人工智能（AI）研究领域展现了巨大的潜力，特别是在提高问题解决能力和理解复杂动态系统方面。

在WarAgent中，研究者将仿真设置着眼于模拟国际冲突，特别是第一次世界大战（WWI）、第二次世界大战（WWII）和中国古代的战国时期（WSP）。

仿真系统的设置包括国家代理（country agents）的详细描述和可用行动空间，这些行动空间指定了执行行动所需的输入和可能的结果。

其中，每个国家代理的配置包括以下六个基本维度：

领导力：负责决策的政治机构，由特定历史时期的背景来具体化。

军事能力：包括定量数据，如军队规模、海军吨位。以及对整体军力的定性评估，包括在特定部门（如海军或空军）的特定优势。

资源：重要元素包括地理位置、人口、国内生产总值（GDP）、地形和气候条件。

历史背景：涉及国家之间未解决的先前冲突和利益冲突，这些可以显著影响当前政策。

关键政策：概述国家追求的主要目标。

公众士气：反映了民众的情绪，可以直接或间接影响国家的行动。

下图是以英国为例的国家代理设定。

此外，在WarAgent的仿真设计中还包含着一系列塑造国家之间关系的行动，包括以下几种行动类型:

等待行动：代理可能在某些回合中采取被动立场。

总动员：为潜在冲突准备军队的步骤。

宣战：正式开始与另一个国家的敌对行动。

军事联盟：两个或更多国家之间提供相互支持的正式协议。

不干涉条约：签署国承诺不干涉彼此内政的外交协议。

和平协议：冲突双方之间的协商解决方案，正式结束敌对状态。

发送信息：除正式行动外，代理还可以通过信息进行非正式沟通，讨论各种问题。

并且，研究者还为模拟国际外交行动的系统设置了三个关键属性，即公开性（publicity）、输入类型(input_type)和响应需求(require_response)，以增强WarAgent的仿真能力，使其能够真实且动态地表现国际外交行动。

同时，研究者采用了匿名化国家名称和对历史事实进行轻微修改的策略来避免大型语言模型由于其广泛的训练，可能会回忆并再现实际历史轨迹的问题。

这种方法能够确保这些改动不会实质性地影响仿真的有效性，同时保持仿真结果的完整性和原创性。

WarAgent架构

在对WarAgent进行了一系列背景和行动设定后，研究对WarAgent的MAS系统进行了详细全面的介绍。

包括核心组件以及MAS内部中Agent之间的信息交流机制。

其中，核心组件包括以下四个部分：

国家代理（Country agents）：这些代理代表模拟中的各个国家，并由其对应的国家概况定义。

在每轮响应中，国家代理会根据当前情况生成行动。这些行动由精心构建的提示指导，以引导Agent处理复杂的国际关系情况，并确保其行动和决策是经过深思熟虑的。

下图中，左图说明了研究中提示设计的关键框架。右图是以法国代理为例，与GPT-4模型交互的实例。

可以看到，提示设计的关键框架包含以下步骤：

第一步：识别潜在的盟友国家。例如，法国因为与德意志帝国的对立认为英国是潜在盟友，同时考虑到地理位置和强大的经济，将美国视为战略盟友。

第二步：识别潜在的敌对国家。在这个场景中，法国将德意志帝国视为主要敌人，因为历史上的敌对关系，并视奥地利为另一个潜在敌人，因为其与德国的联盟。

第三步：概述最终推荐的行动。在给定的情景中，法国建议三个行动：与英国结盟，与奥地利开始对话，以及考虑与美国签订不干涉条约。

第四步：基于前三个提示的反应，总结对情况的分析。在这个场景中，法国得出结论，塞尔维亚刺杀奥地利国王为法国提供了一个与奥地利联盟反对塞尔维亚的机会。但是，需要小心避免激怒德国帝国或俄罗斯。同时，建议寻求与英国的联盟，并与美国达成不干涉条约。

秘书代理(Secretary agents)：每个国家代理都与一名秘书代理配对，以提供额外支持。

秘书代理的设置源于LLM自身的局限性：虽然LLM是强大的工具，但它们并非完美无缺。比如在长篇复杂场景中容易产生错误的信息（hallucination）、缺乏完美的逻辑推理能力。

为了应对这些局限性，每个国家代理都配备了一个指定的「秘书代理」来验证其行动的适当性和基本逻辑一致性。秘书代理的角色有两方面的功能：

首先是确保国家代理采取的所有行动都符合在提供的行动空间中设定的可允许的参数，包括正确的行动名称和基于定义的行动属性的正确输入格式。

其次，秘书代理需要负责验证这些行动的基本逻辑连贯性。例如，如果英国没有通过发送「请求军事联盟」给奥匈帝国来启动过程，那么奥匈帝国「接受来自英国的军事联盟」将是不合逻辑且不可接受的。

董事会(Board)：用来管理Agent之间的互动和关系，并作为一个动态记录平台，收集并展示每轮仿真中进行中的关系动态，并确保代理的决策是基于最新的可用信息。

董事会可以能够初始化Agent的状态、更新它们之间的关系，并以视觉和文本形式对其进行展示。

研究中，董事会被设定为跟踪和管理以下四种不同国家间的国际关系：

战争宣言（W）：表示国家之间的冲突或战争，用符号「x」表示，并在上图中以红色标记。例如，德意志帝国对大不列颠宣战。

军事联盟（M）：表示国家之间正式的军事伙伴关系，用符号「&」表示，并在上图中以绿色标记。例如，塞尔维亚和俄罗斯签订了军事联盟。

不干涉条约（T）：代表在国际事务中不干涉的协议，用符号「。」表示，并在上图中以蓝色标记。例如，奥匈帝国和法国签署了不干涉条约。

和平协议（P）：代表正式的停止敌对行动并维持国家间和平的协议，用符号「~」表示，并在上图中以黄色标记。例如，美国和奥斯曼帝国达成了和平协议。

存档(Stick)：该组件是每个国家代理的内部记录保存系统，代表国内法规或条例。

它可以帮助确保国家代理的行动与其预定义的协议和标准保持一致。

如下图所示，存档专注于跟踪对一个国家的决策过程至关重要的关键指标，包括动员（MO）、内部稳定(IN)和战备预测(WR)。

动员(MO):一种二元测量方法，表明一个国家是否被动员以应对潜在冲突，例如，「是」或「否」。

内部稳定(IN):一种最国家内部稳定度的指标，例如「低」「中」和「高」。

战备状态预测(WR):预测一个国家的战备状态的指标，例如「低」「中」和「高」。

实验中，董事会和存档会通过下图流程进行协作。

研究中，MAS内部的信息交流机制主要包括以下两种类型的互动：

代理-秘书互动：这种互动探讨了每个国家代理如何与其相应的秘书代理沟通，重点是决策和信息核实。

代理-代理互动：这种互动研究不同国家代理之间的沟通和信息共享过程。

在代理-秘书的互动中，每一轮模拟时每个国家代理和秘书代理之间会进行指定的互动。

如上图所示，国家代理提出一个行动计划，然后秘书代理对该计划的格式、内容和逻辑连贯性进行评估。

如果秘书代理发现不一致之处或改进空间，它会提出建议，并与国家代理进行对话以进行修订。

这个迭代过程最多进行四轮交换。如果在这些交换中未达成一致意见，秘书代理将主动修改提案。

而代理-代理的互动是基于历史或模拟中的关键事件来触发的，这些事件为整个模拟中的决策和行动提供了起始点。

例如，在第一次世界大战中，奥匈帝国的弗朗茨·斐迪南大公被暗杀被广泛认为是触发事件。

同样地，对于第二次世界大战，通常认为德意志帝国入侵波兰是触发事件。而在战国分晋的背景下，晋国被韩、赵、魏家族分割通常被视为触发事件。

WarAgent仿真结果

仿真有效性

研究从军事同盟、战争宣言和不干涉条约三个方面对模拟结果进行了评估。

在所有军事联盟的模拟结果中，英国和法国、德意志帝国和奥匈帝国、以及塞尔维亚和俄罗斯之间形成了一致的联盟。这些结果反映了历史上的联盟，并受到诸如语言和种族共同性、战略和政治考虑等因素的影响。

同时，所有宣战事件始终发生在奥匈帝国和塞尔维亚、奥匈帝国和俄罗斯、德意志帝国和俄罗斯之间。在这个模拟中，这一时期的冲突开始于奥匈帝国对塞尔维亚宣战。

紧接着是一系列的各国宣言，结构如下:(德意志帝国一塞尔维亚，俄罗斯一奥匈帝国，法国一德意志帝国，俄罗斯一德意志帝国，英国一德意志帝国)，其中一左边的国家表示宣战的国家，右边的国家表示被宣战的国家。

对奥匈帝国来说，塞尔维亚被视为一个直接的对手，主要是因为奥地利国王被暗杀，这是他们宣战的直接催化剂。随后的宣战是现有联盟结构的结果，符合那个历史时期的联盟和敌对行动。

此外，在每一次模拟中，美国都100%参与了至少一项不干涉条约。同样，在此期间奥斯曼帝国参与了这类条约的85.7%的模拟运行。

出现以上结果的原因是美国专注于保护其财富和避免不必要的中突纠缠的战略。这导致人们倾向于寻求与其他国家签订不干涉条约，以确保与潜在冲突保持距离。

此外，美国还考虑利用外交通讯来收集情报并传达其意图，这与美国的战略分离政策相一致。同样，奥斯曼帝国试图避免直接卷入冲突，旨在保持中立立场或建立防御联盟。

为此，奥斯曼帝国推行不干涉条约并与邻国进行外交交往是有利的。美国和奥斯曼帝国的这些外交战略与他们维持各自地位的更广泛政策是一致的，这有助于解释为什么这两个国家没有主要卷入当时的主要冲突。

这些结果是与真实的历史高度相似的，这表明在将暗杀事件作为触发事件的默认设置下，WarAgent的仿真演化在重现历史场景方面上是有效的。

同时，研究从基于方面和基于时间序列的分析对模拟结果进行了准确性分析。

其中研究的分析的时间框架是1914年6月28日至8月4日，以其来评估模拟联盟和宣战的准确性。

选择这个时期是因为其历史意义。1914年8月6日开始的列日战役在历史上被认为是第一次世界大战的首次重大战役，象征着欧洲大部分主要国家开始积极参与这场冲突。

因此，本研究将这场战役视为战争基本动态开始固化的关键时刻。准确度计算也考虑了在这一关键节点之前形成的联盟和宣战。

在准确性分析中，研究者进行了七次单独的模拟运行，并报告了平均准确度，以减少随机性的影响。

具体来说，研究关注三个主要的维度：模拟联盟与历史联盟的准确度、模拟宣战的准确度，以及每个国家的动员状态。

考虑用于模拟的时间节点，模拟遵循真实的历史事件来获得以下基准事实：

在联盟方面，基准联盟集包括：英国和法国、俄罗斯和塞尔维亚、奥匈帝国和德意志帝国、俄罗斯和法国、奥斯曼帝国和德意志帝国。

在列日战役前的宣战方面，基准宣战集包含：奥地利对塞尔维亚、俄罗斯对奥匈帝国、德意志帝国对塞尔维亚、俄罗斯对德意志帝国、法国对德意志帝国。

在动员方面，在那个时间点，除了美国之外，所有国家都进入了动员状态。

关于世界大战的爆发，我们评估主要国家（英国、法国、俄罗斯、德意志帝国、奥匈帝国）是否参与了战争。

从表可以看出，WarAgent的模拟结盟准确率达到75%以上，动员准确率达到90%以上，而模拟宣战结果相对较低。

但总的来说，在WarAgent的所有的模拟结果中，世界大战都无一例外地爆发了。

战争发生的原因

研究者认为，要理清战争发生的原因，首先要理清各种触发事件，以确定它们对避免一战的潜在影响。

在WarAgent中选择了三个不同强度的触发事件，包括无冲突，用作比较基线的Null触发事件；代表中等强度的冲突的「英德海军事件」；最激烈的导火索「奥俄达达尼尔海峡冲突」。

为了保证结果的鲁棒性，研究对每个出发事件都进行了3次仿真。

但结果表明，各种不同强度的触发因素都可能影响战争的立即爆发。

即使在「Null」(无事发生)的情况下，也观察到了类似「冷战」的情况，这表明即使是小的事件也可能显著升级紧张关系。

由于小的触发事件不可避免，这意味着像第一次世界大战这样的重大冲突最终是必然发生的。

战争必然性

战争必然性是反事实分析中的首个实验。

这项研究则从两个主要角度来探讨问题：代理的决策过程和国家的参数设置。

在实验中，研究者通过操纵这两个方面来分析国家决策中的侵略性和国家关键条件对战争可能性的影响。

研究中检验了三种设置下的代理人决策过程：默认、侵略性和保守性。为此，调整了国家代理的一般系统设置以进行实验。

这样做是为了评估代理人的总体侵略性或保守性如何影响战争的必然性。

在侵略性和保守性设置下，分别进行了3次实验，每次实验包括10轮模拟。

研究的分析表明，当系统和行动分析设置更加激进时，战争发生的可能性明显增加。

在默认设置下，第一次宣战需要几个回合才能观察到，但在侵略性设置下，第一个回合就出现了宣战；在保守设置下，10 个回合后，我们在代理行动中只观察到军事联盟、不干涉条约和和平协议的提议和接受。

这表明代理人的侵略倾向大大加剧了紧张局势和冲突的可能性。

而国家参数是主要是之前的六个关键因素（领导、军事能力、资源、历史背景、关键政策、公众士气），研究者修改了其中五个国家代理的内部设置。在军事能力和资源方面对其进行了量化，并在默认、丰富（默认值的三倍）和稀少（默认值的三分之一）三个层次上进行了实验，以评估它们对战争可能性的影响。

对于历史背景、公众士气和关键政策，研究者修改了特定的关系，并考察了它们对宣战的影响。

由于领导力的可变性以及对其进行系统量化的难度，模拟将其排除在模型之外。

研究发现，历史背景、关键政策和公众士气在决定一个国家战争倾向方面发挥重要作用。

在检验法国和德意志帝国案例的实验中，历史上的不满和民族主义情绪，深植于过去的冲突和领土争端中，显著影响了他们的军事参与。

例如，1870-71年的普法战争导致德意志帝国的统一和法国失去阿尔萨斯-洛林，为法国留下了持久的敌意和复仇愿望。这一历史背景为未来冲突奠定了基础，因为法国试图重新收复失地和声望。

在检验美国关键政策和公众士气的实验中，效果是立竿见影的。在所有模拟中，这一调整导致美国积极寻求联盟，特别是与英国和法国。

这些联盟的建立标志着美国国际立场的重大转变，导致其积极参与第一次世界大战。这一情景展示了美国外交政策战略性重新调整的潜在后果，突显了这种变化如何大幅改变一个国家在全球冲突中的角色和行动。

同时，军事能力和资源虽有影响力，但并不单独决定一个国家参与战争的决策。

拥有显著军事进步和资源的德意志帝国本可以采取更侵略性的扩张政策。然而，历史和外交背景，如联盟和相互防御条约，往往在其军事行动中发挥更决定性的作用。

同样，尽管法国在某些时期相对于德意志帝国军事上处于劣势，但由于历史因素的驱动，它采取了强硬的军事政策，导致其卷入第一次世界大战。

总之，虽然军事能力和资源是一个国家作战决策的关键组成部分，但历史背景、包括过去的冲突、民族主义情绪和长期的竞争关系，往往是这些决策的催化剂。

这强调了理解历史背景对于充分把握国际冲突动态的重要性。

战争，还是和平？通过比较各种战争原因设置，实验表明，即使是最小的或「Null」的触发器也可以螺旋进入冷战的情况，突出了不可避免的战争进程。

通过对国家环境进行反事实的改变，战争必然性的实验进一步支持了这一观点，这表明必须改变国家政策才能从冲突的道路上转向。

这些发现强调了在特定情况下冲突的确定性，但也指出了国家政策或关系的战略修改的潜力，作为改变这些看似注定的结果的手段。

这些影响超越了以往的历史分析，为利用人工智能了解人类历史并在可能的情况下预防未来的国际冲突提供了蓝图。

参考资料：

https://arxiv.org/abs/2311.17227

智能体模拟二战和战国时代！用LLM模拟推演战争，会改变历史吗？

新智元报道

【新智元导读】我们是否还有另一个选择，可以让人类完美通关历史？来自密歇根和罗格斯大学的学者利用LLM对历史上的战争进行模拟推演结果，会是我们的参考答案吗？

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

一张小卡片敢卖999？原来是智能体AI硬件

佛山也要AI：从“制造之都”迈向“AI 新‘质’造之都”

OceanBase AI新进展：OB Cloud服务数十家头部企业AI应用落地

灵快科技获数百万元天使轮融资，发布能自主进化的AI数据分析师TabTab

老年人12周才有效，年轻人一次就够：科学家揭示丢失的运动激素

预测大模型工业生存法则,华为博士告诉你什么是B端最需要的大模型