【推荐理由】强化学习中进行经验设计并不容易。进行良好的实验需要注意细节,有时需要大量的计算资源。本文介绍了如何在强化学习中进行良好的实验。
Empirical Design in Reinforcement Learning
Andrew Patterson, Samuel Neumann, Martha White, Adam White
[University of Alberta]
【论文链接】https://arxiv.org/pdf/2304.01315.pdf
【摘要】在强化学习中进行经验设计并不是一项小任务。进行良好的实验需要注意细节,有时需要大量的计算资源。虽然每美元可用的计算资源不断增长,但典型强化学习实验的规模也在不断增大。现在,常见的是在数十个任务上对拥有数百万参数的智能体进行基准测试,每个任务使用相当于30天经验的等价量。这些实验的规模通常与需要适当的统计证据的需要相冲突,特别是在比较算法时。最近的研究已经强调了流行算法对超参数设置和实现细节的敏感性,以及常见的经验实践导致弱的统计证据(Machado等人,2018; Henderson等人,2018)。在这里,作者更进一步。本文既是一个行动呼吁,也是一个如何在强化学习中进行良好实验的全面资源。具体而言,我们涵盖了:常见性能度量背后的统计假设,如何正确地描述性能变化和稳定性,假设检验,比较多个智能体的特殊考虑,基线和说明性实例构建,以及如何处理超参数和实验者偏见。在整个过程中,我们强调了文献中发现的常见错误以及这些错误在示例实验中的统计结果。本文的目标是提供关于如何利用我们前所未有的计算资源进行良好的强化学习科学的答案,以及注意经验设计中潜在的陷阱。