强化学习–PPO（近端策略优化）

大大源码 • 2023年3月9日 pm9:20 • 其他

On-policy 和 Off-policy

1. 策略梯度是一个 on-policy 的算法。

因为是一个 actor 按照 policy 去和 env 互动，得到一系列轨迹，根据它互动的信息（s,a,r）按照策略梯度的公式更新策略π 的参数θ 。【学习和交互是同一个agent】

上一章计算的策略梯度。 policy πθ 采样出来轨迹τ的概率 pθ(τ)，在参数更新后，就发生了改变pθ(τ)这个概率就不对了，所以采样的数据也不能再继续使用了，所以要重新采集。这就解释了上一章说的为什么 采样一次更新一次。

2. 对于上述问题，会进行很多次采样的改进 -》off-policy。

用一个 固定的 policy ，actor θ′ 去跟环境做互动，收集数据，去训练更新另一个 policy actor θ

具体做法：

【重要性采样】-- 但是 pθ(at∣st) 跟 pθ′(at∣st) 这两个分布差太多的话，重要性采样的结果就会不好。因为方差 var 差的大

重要性采样推导公式：

θ′ 和 θ 分布不一样， θ′ 可以是任意分布，所以有个修正 “重要性权重” pθ(τ)/pθ'(τ) [ 重要性权重就是某一个轨迹 τ 用 θ 算出来的概率除以这个轨迹 τ 用 θ′ 算出来的概率 ] 。

3.对于上一个图片中 R（ τ ）是一个回合的奖励，上一章的 tip 中改进了这个奖励权重，为了削弱采样方差大的问题引入 baseline ，对于不同动作采取不同权重而不是整个回合的奖励权重。得到下图：

（1）第一个红线出应该是 θ′ ，因为是用的 θ′ 和环境交互，采集的reward 应该是θ′ 产生的

（2）第二个红线假设了模型 θ 的时候，看到 s_t 的概率，跟模型是 θ′ 的时候，你看到 s_t 的概率是差不多的，即pθ(st)=pθ′(st)。直观原因解释是算不出来，所以无视？？这个有一些问题

（3）得到新的目标函数

总结：

1. θ′ 去跟环境做互动，采样出 s_t、a_t

2.计算 s_t 跟 a_t 的 advantage 奖励

3.乘上 pθ(at∣st) \ pθ′(at∣st) 。知道 θ 和 θ′ 的参数，就是两个网络，输入 s_t ，输出每一个 a_t 的概率是多少。

4.求梯度更新 θ

【由于在 PPO 中θ′ 是 θold，即 behavior policy 也是 θ，所以 PPO 是 on-policy 的算法。那不就是一个θ　了吗？？】

出现的原因：

针对上面重要性采样的问题 -- pθ(at∣st) 跟 pθ′(at∣st) 不能差太多。怎么避免差的多-》ppo。

解决方案：

在训练的时候明天添加了一个约束，约束是 θ 跟θ′ 输出的动作的 KL 散度(KL divergence)，这一项的意思就是要衡量说θ 跟 θ′ 有多像。所以 PPO的优化目标函数添加一项，变为

下面的 TRPO 是 PPO 的前身，此处KL散度没有在优化目标函数中直接计算，而是一个额外约束，基于梯度优化的时候，有约束的很难处理

（1）KL散度：不是计算的　θ 和 θ′　参数上的距离，而是　动作　上的距离。输入：相同状态，输出：动作空间的概率分布，计算两个　概率分布　之间的KL散度。把　不同的状态　输出　的这　两个分布　的 KL 散度　平均　起来就是所指的两个 actor 间的 KL 散度。

（1）先初始化一个 policy 的参数 \theta^0 θ0。然后在每一个迭代里面，你要用参数 \theta^k θk，\theta^k θk 就是你在前一个训练的迭代得到的 actor 的参数，你用 \theta^k θk 去跟环境做互动，采样到一大堆状态-动作的对。

（2） KL散度前面系数 β 可以动态调整：

先设一个你可以接受的 KL 散度的最大值。假设优化完这个式子以后，你发现 KL 散度的项太大，那就代表说后面这个惩罚的项没有发挥作用，那就把 β 调大，让约束增强。当优化完，小于最小值，说明θ 跟 θk 很像，要减弱约束。

提出理由：算 KL 散度很复杂，这个变种的优化目标函数里没有KL散度。但是仍然要解决重要性采样的问题目的：pθ(at∣st) 跟pθk(at∣st)，也就是拿来做示范的模型跟实际上学习的模型，在优化以后不要差距太大。

第二项前面有个 clip 函数，clip 函数的意思是说，
- 在括号里面有三项，如果第一项小于第二项的话，那就输出 1-\varepsilon 1−ε 。
- 第一项如果大于第三项的话，那就输出 1+\varepsilon 1+ε。
\varepsilon ε 是一个超参数，可以设成 0.1 或设 0.2 。