【论文阅读】AWR:Simple and scalable off-policy RL
快速了解部分基础信息英文题目: ADVANTAGE-WEIGHTED REGRESSION: SIMPLE AND SCALABLE OFF-POLICY REINFORCEMENT LEARNING时间:2019.10机构:University of California, Berkeley3个英文关键词: off-policy reinforcement learning, advantage-weighted regression, supervised learning1句话通俗总结本文干了什么事情把强化学习策略更新变成两个标准监督学习步骤先回归拟合价值函数再用advantage加权回归拟合策略简单有效且支持off-policy。研究痛点现有研究不足 / 要解决的具体问题Policy gradient类方法不稳定、on-policy、样本效率低Q-function类off-policy方法实现复杂需大量trick稳定训练简单回归类方法如RWR在神经网络近似下效果差且难以利用off-policy数据核心方法关键技术、模型或研究设计简要策略更新 weighted supervised regression权重为 exp(advantage/β)价值函数用TD(λ)回归拟合降低方差Experience replay 单价值函数拟合混合策略baseline支持off-policy固定β 权重裁剪简化实现并防止梯度爆炸深入了解部分作者想要表达什么强化学习不一定需要复杂算法通过合理的约束策略优化推导简单工程改进纯监督学习范式也能实现高效off-policy RL。相比前人创新在哪里用advantage替代return作为权重关键引入baseline消除状态价值偏差将on-policy的RWR扩展为off-policy通过replay buffer建模混合策略分布用单个价值函数拟合混合策略的加权平均baseline避免多价值函数不稳定固定超参权重裁剪大幅简化实现无需自适应调β解决方法/算法的通俗解释想象你在学打游戏先估计当前局面值多少分价值函数然后回顾历史操作给那些比预期表现更好的操作打高分下次遇到类似局面就更倾向于模仿这些高分操作。AWR就是把这个过程变成两个标准的监督学习任务。解决方法的具体做法收集轨迹存入FIFO replay buffer D价值函数更新最小化 ∥R^D_s,a - V(s)∥²R用TD(λ)估计策略更新最大化 E[logπ(a|s) × exp((R^D_s,a - V^D(s))/β)]即advantage加权MLE工程技巧均匀采样state、权重裁剪ω_max20、固定β0.05基于前人的哪些方法Reward-Weighted Regression (RWR)监督回归式策略更新框架约束策略优化推导类似REPS的KL约束Lagrangian求解Experience replay TD(λ)标准off-policy RL工程实践实验设置、数据、评估方式、结论任务OpenAI Gym连续/离散控制 高维角色运动模仿34 DoF humanoid, 82 DoF dog对比TRPO/PPOon-policy, DDPG/TD3/SACoff-policy, RWR基线评估最终平均return ± 标准差5 seeds结论AWR性能与SAC/TD3相当实现更简单在纯静态数据集off-policy学习场景优于多数方法消融实验验证advantage权重、baseline、replay buffer均为关键组件提到的同类工作RWR / REPSEM或约束优化推导的回归式策略搜索MPOREPS的deep RL变种partial EM Retrace(λ)LAWERadvantage加权Fitted Q-IterationSAC/TD3soft update off-policy correction的actor-critic方法和本文相关性最高的3个文献Peters Schaal, 2007 - Reward-Weighted Regression (RWR)Peters et al., 2010 - Relative Entropy Policy Search (REPS)Abdolmaleki et al., 2018 - Maximum a Posteriori Policy Optimisation (MPO)