通过主动奖励学习实现可证明的反馈高效强化学习

855次阅读
没有评论

Provably Feedback-Efficient Reinforcement Learning via Active Reward
Learning

解决问题:
本论文的目的是提供一种理论上可行的、反馈高效的强化学习算法,通过人机交互的方式来指定任务的奖励函数。在强化学习中,正确的奖励函数对于指定任务至关重要,但在实践中设计正确的奖励函数甚至对于简单的任务来说也非常具有挑战性。本文的目的是通过人机交互来指定任务的奖励函数,以此解决这个问题。此问题并非新问题,但本文提供了一种新的解决方案。

关键思路:
本文提供了一种基于主动学习的强化学习算法,该算法首先在不指定奖励函数的情况下探索环境,然后仅在某些状态-动作对上询问人类教师关于任务奖励的少量查询。之后,该算法保证以高概率为任务提供近似最优策略。与标准的强化学习算法相比,该算法只需要对奖励函数进行 $widetilde{O}(H{{dim{R}^2}})$ 次查询,就能为任何 $epsilon > 0$ 提供一个 $epsilon$-最优策略。其中 $H$ 是强化学习环境的时间跨度,$dim{R}$ 指代奖励函数表示的函数类的复杂度。与标准的强化学习算法相比,该算法大大减少了人类教师所需提供的反馈。

其他亮点:
本文的实验设计基于 OpenAI Gym,使用了 Atari 游戏环境和 MuJoCo 物理模拟环境。作者还提供了开源代码,方便其他研究者使用和复现。本文的亮点之一是提供了一种理论上可行的、反馈高效的强化学习算法,可以在实践中应用。此外,本文的算法可以处理反馈中的随机噪声,这是一个非常实用的特性。本文的工作值得进一步深入研究。

关于作者:
本文的主要作者是 Dingwen Kong 和 Lin F. Yang。他们分别来自加州大学伯克利分校和加州大学洛杉矶分校。Dingwen Kong 曾在伯克利分校的人工智能实验室从事研究工作,他的代表作包括 “Accelerated Methods for Deep Reinforcement Learning”。Lin F. Yang 的研究领域包括强化学习、机器学习和优化,他的代表作包括 “Stochastic Gradient Descent for Nonconvex Learning with Provable Guarantees”。

相关研究:
近期其他相关的研究包括:

  • “Human-in-the-loop Reinforcement Learning: A Survey”,作者:Mohammad Gheshlaghi Azar,Kris M. Kitani,机构:卡内基梅隆大学。
  • “Sample Efficient Reinforcement Learning with Supervision”,作者:Ofir Nachum,Shixiang Gu,Honglak Lee,机构:加州大学伯克利分校。
  • “Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference”,作者:Zhizhong Li,Derek Hoiem,机构:伊利诺伊大学香槟分校。

论文摘要:本文探讨了强化学习(RL)中一个重要问题:如何设计适当的奖励函数。虽然人类可以通过提供各种反馈来帮助RL代理实现复杂目标,但实践中设计正确的奖励函数仍然非常具有挑战性。本文提出了一种基于主动学习的RL算法,它首先在不指定奖励函数的情况下探索环境,然后仅询问人类教师有关某些状态-动作对的任务奖励的少量查询。之后,该算法保证以高概率提供几乎最优的任务策略。即使在反馈中存在随机噪声,该算法也只需要对奖励函数进行$widetilde{O}(H{{dim{R}^2}})$次查询,就可以为任何$epsilon >0$提供$epsilon$-最优策略。这里$H$是RL环境的时间跨度,$dim{R}$指代表奖励函数的函数类的复杂度。相比之下,标准RL算法需要查询至少$Omega(operatorname{poly}(d,1/epsilon))$个状态-动作对的奖励函数,其中$d$取决于环境转换的复杂性。本文旨在从理论角度解决人类在RL中提供反馈的效率问题,提供可证明的反馈高效算法框架。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy