Scidown文献预览系统!
沃瑟斯坦距离引导对抗模仿学习与奖励形状探索( Wasserstein Distance guided Adversarial Imitation Learning with Reward Shape Exploration )
M Zhang Y Wang X Ma L Xia J Yang Z Li X Li
生成性对抗性模仿学习(GAIL)提供了一个对抗性学习框架,用于从高维连续任务中的演示中模仿专家策略。然而,几乎所有的GAIL及其扩展都只在所有复杂环境下的具有Jensen-Shannon(JS)散度的对抗性训练策略中设计一种对数形式的奖励函数。固定对数型的奖励函数可能难以解决所有复杂的任务,而JS散度引起的梯度消失问题会对对抗性学习过程产生不利影响。本文提出了一种新的Wasserstein距离引导的对抗性模仿学习算法(WDAIL),以提高模仿学习的性能。改进的方法有三个方面:(a)在对抗性训练过程中引入Wasserstein距离以获得更合适的度量;(b)在强化学习阶段引入近端策略优化(PPO),使算法实现更加简单,提高了算法的效率;(c)探索不同的奖励函数形状以适应不同的任务,提高了算法的性能。实验结果表明,该学习过程保持了很好的稳定性,在复杂的连续控制任务中取得了很好的效果。
『Sci-Hub|Scidown』怎么用?来看看教程吧!

支持模式 1.支持DOI号 2.支持英文文献全名搜索 3.支持参考文献搜索 4.知网文献(暂时关闭)


安卓手机、电脑用户,您可以在QQ浏览器里输入 www.scidown.cn 打开scidown解析,就可以解析、下载了!(注意是文献的DOI号)


苹果手机用户,您需要先在App Store里搜索并下载 Documents by Readdle 这个APP,在APP首页,左划右下角的指南针图标打开APP内置浏览器,在浏览器里输入 www.scidown.cn 打开scidown解析,就可以解析、下载了!


如出现BUG?赶快加入【Scidown互助交流群】反馈吧:729083885【点击一键加群】