Sample-efficient Model-based Reinforcement Learning for Quantum Control
解决问题:本篇论文旨在提出一种基于模型的强化学习方法,以解决量子控制中的噪声时变门优化问题,并通过减少样本复杂度来提高效率。这是一个新问题。
关键思路:该论文的关键思路是使用可微分的ODE(ordinary differential equations)来表示模型,通过学习可学习的Hamiltonian ansatz来近似环境,同时与系统进行交互来解决控制问题。相比于当前领域的研究,该论文的思路在于将ODE应用于量子控制领域,以提高效率。
其他亮点:本文的实验采用了含有单次测量、任意希尔伯特空间截断和哈密顿参数不确定性的现实数字实验,并在NV中心和transmons上应用了该算法。此外,论文提出的学习到的Hamiltonian可以为现有的控制方法(如GRAPE)提供初始控制器,并且该方法在控制部分表征的一和二量子位系统方面表现良好。然而,该论文未提供开源代码。
关于作者:本篇论文的主要作者是Irtaza Khalid、Carrie A. Weidner、Edmond A. Jonckheere、Sophie G. Shermer和Frank C. Langbein。他们分别来自英国的伯明翰大学和桑德兰大学。他们之前的代表作未在我的数据库中找到。
相关研究:最近其他相关的研究包括“Efficient quantum control using gradient-based algorithms and reinforcement learning”(作者:M. T. Mitchison、M. J. Gullans、M. P. Zaletel,机构:加州大学伯克利分校)、“Quantum reinforcement learning”(作者:A. A. Melnikov、H. Pichler、D. Ebler、P. Zoller,机构:奥地利科学院)等。
论文摘要:我们提出了一种基于模型的强化学习方法,用于噪声时变门优化,相较于基于模型的无模型强化学习,我们的方法具有更好的样本复杂度。样本复杂度是指控制器与物理系统交互的次数。我们利用归纳偏差,受到神经常微分方程最近进展的启发,使用一个可微分的常微分方程,其参数由可学习的哈密顿量假设表示,以表示近似环境的模型,其时变部分(包括控制)是完全已知的。通过与系统的交互,我们解决了连续时间独立参数的哈密顿学习和控制问题。我们在实际数字实验中展示了我们的方法在准备一些标准的单量子门(包括闭合和开放系统动力学)方面,在样本复杂度方面比标准的基于模型的无模型强化学习方法有一个数量级的优势。数字实验中还包括单次测量、任意希尔伯特空间截断和哈密顿参数的不确定性。此外,学习到的哈密顿量可以被现有的控制方法(如GRAPE)利用,以便进行进一步的基于梯度的优化,其中强化学习找到的控制器作为初始化。我们在本文中应用于氮空位中心和转子,适用于控制部分特征化的一和二量子比特系统。