顽固:一个用于评估具有共同利益的代理之间顽固性的环境

599次阅读
没有评论

Stubborn: An Environment for Evaluating Stubbornness between Agents with
Aligned Incentives

解决问题:
该论文旨在研究完全合作环境下的多智能体强化学习中的“顽固性”,并提出了一种度量智能体之间“顽固性”的方法。该论文的目的是推动对智能体的顽固性倾向、对手智能体的反应以及由此产生的社交动态的研究。

关键思路:
该论文提出了一种度量智能体顽固性的方法,并提出了一个用于评估智能体顽固性的环境——Stubborn。该环境允许智能体进行完全合作,但并不保证智能体之间的合作。该论文的新思路在于,它提出了一个新的研究方向,即在完全合作的情况下探讨智能体之间的顽固性。

其他亮点:
该论文的实验结果表明,智能体可以使用他们伙伴的顽固性作为信号来改善他们在环境中的选择。该论文还提供了一个新的环境——Stubborn,供其他研究者使用。该论文的代码已经开源,可以在GitHub上找到。

关于作者:
Ram Rachum、Yonatan Nakar和Reuth Mirsky是该论文的主要作者。他们分别来自以色列理工学院、以色列航空工业公司和以色列国防部。Ram Rachum是一位资深的Python程序员,他还撰写了一本关于Python的书。Yonatan Nakar是一位计算机科学家,他的研究方向包括机器学习、计算机视觉和智能体。Reuth Mirsky是一位研究人员,他的研究方向包括机器学习和智能体。

相关研究:
最近的研究表明,在多智能体强化学习中,学习社交行为和合作是成功的。其他相关研究包括:

  • “Multi-Agent Reinforcement Learning in Sequential Social Dilemmas”,作者为Ryan Lowe、Yi Wu、Abhishek Gupta等,发表于ICML 2017。
  • “Emergent Complexity via Multi-Agent Competition”,作者为Jakob Foerster、Nando de Freitas等,发表于ICLR 2018。
  • “Cooperative Multi-Agent Reinforcement Learning with Observational Discrimination”,作者为Yi Wu、Joshua Romoff等,发表于AAAI 2019。

论文摘要:本文介绍了一个名为Stubborn的环境,用于评估完全协作设置下代理之间的顽固程度。最近的多智能体强化学习(MARL)研究表明,学习社会行为和合作是成功的。混合和博弈中代理之间的社会困境已经得到广泛研究,但是在完全协作的情况下,代理之间的社会困境研究很少,因为代理之间没有可能在另一个代理的代价上获得奖励。虽然完全一致的利益有助于代理之间的合作,但并不保证它。我们提出了一种代理之间的”顽固度”的度量方式,旨在捕捉人类社会行为的特征:逐渐升级和潜在灾难性的分歧。我们希望促进对代理倾向于固执的研究,对对方代理的反应以及由此产生的社会动态的研究。在本文中,我们介绍了Stubborn,这是一个用于评估完全一致激励下代理之间顽固程度的环境。在我们的初步结果中,代理学会将其伙伴的顽固作为信号,以改进他们在环境中的选择。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy