RL policy gradient 之 A2C, A3C,PPO小总结

时间:2024-03-15 08:08:31

A2C, A3C, PPO 都不是纯 policy based 的 RL 方法,准确地说是 Actor-Critic 方法,即,同时用到了 value function 和 policy funtion.

这三种方法之间有什么区别呢?

A2C

这里的数字 2 其实是说有多少个 “A” 的意思, 作为 Actor-Critic 方法的一种,A2C 是在 Actor-Critic 方法的基础上多了一个 advantage : r+v(s)v(s)r + v(s') - v(s)

RL policy gradient 之 A2C, A3C,PPO小总结

A3C

很好理解,比 A2C 多一个A:Asynchronous,是一种异步更新的方法

PPO

比上面两种方法又多了一个 clip 操作

RL policy gradient 之 A2C, A3C,PPO小总结