Efficient Deep Reinforcement Learning Requires Regulating Overfitting
解决问题:本文旨在解决深度强化学习中的数据效率问题,探讨其中的瓶颈,并提出一种通用的解决方案。作者试图验证过拟合是数据效率低下的主要原因,并提出一种新的思路。
关键思路:通过在DeepMind控制套件上进行实验,作者发现过高的时间差分误差是深度强化学习算法性能不佳的主要原因,而之前的一些方法之所以能够取得好的性能,实际上是通过控制验证集上的时间差分误差来实现的。因此,作者提出了一个通用的解决方案:利用监督学习中的任何形式的正则化技术,通过优化验证集上的时间差分误差来提高深度强化学习的效率。
其他亮点:本文的实验设计非常严谨,使用了DeepMind控制套件和Gym任务等多个数据集进行验证。作者还提出了一种基于在线模型选择的方法来控制时间差分误差,取得了不错的效果。此外,本文的代码已经开源,为后续的研究提供了便利。
关于作者:本文的主要作者包括Qiyang Li、Aviral Kumar、Ilya Kostrikov和Sergey Levine。他们都是来自加州大学伯克利分校的研究人员,曾经在深度强化学习领域有过多篇代表作,如Sergey Levine的“End-to-end training of deep visuomotor policies”和Ilya Kostrikov的“MPO: On-policy maximum a posteriori policy optimization for reinforcement learning”。
相关研究:近期的相关研究包括:
-
“Regularized Evolution for Image Classifier Architecture Search” by Esteban Real, Alok Aggarwal, Yanping Huang等,来自谷歌大脑。
-
“Learning to Learn without Forgetting by Maximizing Transfer and Minimizing Interference” by Zhizhong Li, Derek Hoiem等,来自伊利诺伊大学厄巴纳-香槟分校。
-
“Optimization of a Deep Learning Engine for Embedded Systems” by Jian Li, Xiaoming Chen等,来自英特尔公司。
论文摘要:本文的主题是高效深度强化学习需要控制过拟合,深度强化学习算法通过试错学习策略,必须从与环境的交互中收集有限的数据来学习。虽然许多先前的研究表明,适当的正则化技术对于实现数据高效的RL至关重要,但对于数据高效的RL的瓶颈的一般理解仍不清楚。因此,很难设计一种在所有领域都有效的通用技术。本文试图通过检查几个潜在的假设(例如非静态、过度的行动分布变化和过拟合)来理解样本高效深度RL的主要瓶颈。我们在DeepMind控制套件(DMC)的基于状态的任务上进行了彻底的经验分析,以控制和系统的方式,展示了验证集转换的高时间差(TD)误差是严重影响深度RL算法性能的主要罪魁祸首,并且先前导致良好性能的方法实际上控制了验证TD误差低。这一观察结果为我们提供了一个使深度RL高效的强有力的原则:我们可以利用来自监督学习的任何形式的正则化技术在验证TD误差上进行爬坡。我们展示了一个简单的在线模型选择方法,该方法针对验证TD误差在基于状态的DMC和Gym任务中是有效的。