IDQL:隐式Q学习作为具有扩散策略的演员-评论家方法

653次阅读
没有评论

IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies

解决问题:该论文旨在解决离线强化学习中的一个问题,即如何正确处理分布外的动作。它通过训练一个Q函数来解决这个问题,但是不清楚哪个策略实际上可以实现这个隐式训练的Q函数。因此,该论文提出了一种新的方法,将隐式Q学习(IQL)重新解释为一个演员-评论家方法,并将其与行为正则化的隐式演员相连接。

关键思路:该论文的关键思路是将隐式Q学习重新解释为演员-评论家方法,并将其与行为正则化的隐式演员相连接,从而解决分布外动作的问题。与先前的方法相比,该方法的演员可以表现出复杂和多模态的特征,这表明了使用AWR中的条件高斯演员拟合的问题。而论文提出了一种新的方法,使用来自扩散参数化行为策略的样本和由评论家计算的权重,然后重要采样我们的目标策略。

其他亮点:该论文的实验结果表明,提出的方法(IDQL)在离线强化学习中表现出色,并且对超参数具有鲁棒性。此外,该论文还提供了开源代码,可在https://github.com/philippe-eecs/IDQL上获得。值得进一步研究的是,如何更好地处理分布外动作,并在实际应用中实现更好的性能。

关于作者:该论文的主要作者分别是Philippe Hansen-Estruch、Ilya Kostrikov、Michael Janner、Jakub Grudzien Kuba和Sergey Levine。他们都来自加州大学伯克利分校。Philippe Hansen-Estruch的代表作包括“Deep Reinforcement Learning with Implicit Quantile Function”,Ilya Kostrikov的代表作包括“Image Augmentation Is All You Need: Regularizing Deep Reinforcement Learning from Pixels”,Michael Janner的代表作包括“Variational Implicit Processes”,Jakub Grudzien Kuba的代表作包括“Causal Reinforcement Learning”,Sergey Levine的代表作包括“End-to-End Training of Deep Visuomotor Policies”。

相关研究:与该论文相关的其他研究包括“Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems”(Yan Duan, John Schulman, Xi Chen, Peter L. Bartlett, Ilya Sutskever,OpenAI)、“Conservative Q-Learning for Offline Reinforcement Learning”(Aviral Kumar, Justin Fu, George Tucker, Sergey Levine,UC Berkeley)、“Behavior Regularized Offline Reinforcement Learning”(Yan Duan, Marvin Zhang, John Schulman, Jian Peng,OpenAI)等。

论文摘要:本文提出了一种名为隐式扩散Q学习(IDQL)的离线强化学习方法,它将隐式Q学习(IQL)重新解释为一种演员-评论家方法,并通过广义化评论家目标将其与行为规范化的隐式演员相连接。这种演员平衡了奖励最大化和与行为策略的差异,具体的损失选择决定了这种权衡的性质。IDQL使用扩散参数化行为策略的样本和从评论家计算的权重来重要性抽样我们的目标策略,从而结合了IQL的实现简便性,优于先前的离线强化学习方法,并且表现出对超参数的鲁棒性。作者提供了开源代码,可在https://github.com/philippe-eecs/IDQL上获得。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy