顽固:一个用于评估具有共同利益的代理之间顽固性的环境

1,236次阅读
没有评论

Stubborn: An Environment for Evaluating Stubbornness between Agents with
Aligned Incentives

解决问题:
该论文旨在研究完全合作环境下的多智能体强化学习中的“顽固性”,并提出了一种度量智能体之间“顽固性”的方法。该论文的目的是推动对智能体的顽固性倾向、对手智能体的反应以及由此产生的社交动态的研究。

关键思路:
该论文提出了一种度量智能体顽固性的方法,并提出了一个用于评估智能体顽固性的环境——Stubborn。该环境允许智能体进行完全合作,但并不保证智能体之间的合作。该论文的新思路在于,它提出了一个新的研究方向,即在完全合作的情况下探讨智能体之间的顽固性。

其他亮点:
该论文的实验结果表明,智能体可以使用他们伙伴的顽固性作为信号来改善他们在环境中的选择。该论文还提供了一个新的环境——Stubborn,供其他研究者使用。该论文的代码已经开源,可以在GitHub上找到。

关于作者:
Ram Rachum、Yonatan Nakar和Reuth Mirsky是该论文的主要作者。他们分别来自以色列理工学院、以色列航空工业公司和以色列国防部。Ram Rachum是一位资深的Python程序员,他还撰写了一本关于Python的书。Yonatan Nakar是一位计算机科学家,他的研究方向包括机器学习、计算机视觉和智能体。Reuth Mirsky是一位研究人员,他的研究方向包括机器学习和智能体。

相关研究:
最近的研究表明,在多智能体强化学习中,学习社交行为和合作是成功的。其他相关研究包括:

  • “Multi-Agent Reinforcement Learning in Sequential Social Dilemmas”,作者为Ryan Lowe、Yi Wu、Abhishek Gupta等,发表于ICML 2017。
  • “Emergent Complexity via Multi-Agent Competition”,作者为Jakob Foerster、Nando de Freitas等,发表于ICLR 2018。
  • “Cooperative Multi-Agent Reinforcement Learning with Observational Discrimination”,作者为Yi Wu、Joshua Romoff等,发表于AAAI 2019。

论文摘要:本文介绍了一个名为Stubborn的环境,用于评估完全协作设置下代理之间的顽固程度。最近的多智能体强化学习(MARL)研究表明,学习社会行为和合作是成功的。混合和博弈中代理之间的社会困境已经得到广泛研究,但是在完全协作的情况下,代理之间的社会困境研究很少,因为代理之间没有可能在另一个代理的代价上获得奖励。虽然完全一致的利益有助于代理之间的合作,但并不保证它。我们提出了一种代理之间的”顽固度”的度量方式,旨在捕捉人类社会行为的特征:逐渐升级和潜在灾难性的分歧。我们希望促进对代理倾向于固执的研究,对对方代理的反应以及由此产生的社会动态的研究。在本文中,我们介绍了Stubborn,这是一个用于评估完全一致激励下代理之间顽固程度的环境。在我们的初步结果中,代理学会将其伙伴的顽固作为信号,以改进他们在环境中的选择。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 4 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...