论文研究量子多重Q学习

上传：xiedaiyong 浏览： 18 推荐： 0 文件：PDF 大小：1.14MB 上传时间：2020-07-18 10:17:54 版权申诉

本文介绍了一组基于值的量子强化学习算法，这些算法使用Grover算法更新策略，并以与每个可能动作相关的qubits的叠加形式存储该策略，并探索其参数。这些算法可以分为两类，一类使用值函数（V（s）），另一类使用动作值函数（Q（s，a））。发现新的基于（Q（s，a））的量子算法比基于V（s）的算法收敛更快，并且一般而言，发现量子算法的迭代次数少于经典算法的迭代次数，在此期间净收益更大。训练。这是由于以下事实：（Q（s，a））算法比基于V（s）的算法更精确，这意味着更新可以更有效地合并到值函数中。通过观察可以基于更高的学习率训练基于Q（s，a）的算法，也可以增强这种效果。然后，通过添加多