DeepReinforcementLearning DDPG for RoboticsControl:这是名为深度确定性策略梯度(DDPG)的深度强化学习算法的

上传：presidency91240 浏览： 30 推荐： 0 文件：ZIP 大小：20.38MB 上传时间：2021-02-27 10:43:08 版权申诉

DDPGforRoboticsControl 这是名为深度确定性策略梯度(DDPG)的深度强化学习算法的实现,用于训练4自由度机械臂以达到移动目标。动作空间是连续的,学习的代理会输出扭矩以使机器人移动到特定的目标位置。环境一个包含20个相同代理的,每个代理都有其自己的环境副本。在这种环境下,双臂可以移动到目标位置。对于代理人的手在目标位置中的每一步,将提供+0.1的奖励。因此,座席的目标是在尽可能多的时间步中保持其在目标位置的位置。观察空间由33个变量组成,分别对应于手臂的位置,旋转,速度和角速度。每个动作是一个带有四个数字的向量,对应于适用于两个关节的扭矩。动作向量中的每个条目都应为-1和1之间的数字。解决环境您的特工平均得分必须为+30(超过100个连续剧集,并且超过所有特工)。具体来说,在每个情节之后,我们将每个代理商获得的奖励加起来(不打折),以获得每个

上传资源