强化学习

T4mako4/17/26About 3 min

强化学习

强化学习目标：找到一个策略去最大化奖励

即训练一个 Policy 神经网络 $\pi$ ，在所有的 Trajectory（状态动作序列）中，得到 Return（reward 总和）的期望最大

MDP（Markov Decision Process，马尔科夫决策）

Action、State、Reward 的执行轨迹（Trajectory $\tau$ ）

t 时刻 回报 Return： $U_t = R_1 + \gamma R_2 + ....\gamma ^{n-1}R_n = \sum_n^{k = t}\gamma ^{k-t}R_k$

更复杂的情况：

状态 s 可以采取多个 a
状态采取多个 a 后可能会进入多个不同的 s’

因此：

$\pi(a|s)$ ：当前状态 s 采取动作 a 的概率分布
$p(s'|s,a)$ ：当前状态 s 采取动作 a 后进入状态 s’ 的概率分布

此时可以分别计算 State Value（状态价值）和 Action Value（动作价值）

State Value（状态价值）的期望函数：

Action Value（动作价值）的期望函数：

状态价值 和 动作价值 的关系：

$V_\pi(s) = \sum_{a\in A}\pi(a|s)Q_\pi(s,a)$

强化学习分类

强化学习方法可以分为 以获得「最大奖励」为基础的 value-based 方法 和 通过预测动作可以获得最大奖励的「概率分布」的 policy-based 方法

Value-Based 方法

Monte Carlo 蒙特卡洛

目标：估计 $Q_\pi(s,a)$ 的最大值

$Q_\pi(s,a) \approx \frac{1}{N}\sum _{i=1}^NU^{(i)}$

问题：需要走完一次流程（玩完一局）

Temporal Difference 时序差分

目标：估计 $Q_\pi(s,a)$ 的最大值

优势：可以通过已经经历过的 真实值 按步更新 $Q_\pi(s,a)$ ，减少误差

$Q_\pi(s,a) \approx r_t + \gamma Q_\pi (s_{t+1},a_{t+1})$

$Q_\pi(s_t,a_t) \longleftarrow Q_\pi(s_t,a_t) + \alpha[r_t + \gamma Q_\pi(s_{t+1},a_{t+1})-Q_\pi(s_t,a_t)]$

SARSA

SARSA 即 state-action-reward-state-actioin

通过 $\varepsilon-greedy$ 选择点前状态的最优动作，类似查表，但允许一定的探索

Q-learning

Q-learning 在第二步**（下一步）**时直接选择最大的 动作-状态-价值（类似直接查表拿最大）

价值更新

有了 第一步 和 第二步 的状态-动作-价值后，就可以对价值进行更新

更新方式有 Table Update 或 NN Update 两种方式

Table Update： $Q_\pi(s_t,a_t) \longleftarrow Q_\pi(s_t,a_t) + \alpha[r_t + \gamma Q_\pi(s_{t+1},a_{t+1})-Q_\pi(s_t,a_t)]$
NN Update： $Loss = \frac{1}{2}(r+\gamma Q_\pi(s',a')-Q_\pi(s,a))^2$

行为策略：获得当前步的 $Q_\pi(s,a)$ 方式为行为策略（与环境互动、产生数据的策略）

目标策略：获得下一步的 $Q_\pi(s,a)$ 方式为目标策略（评估或优化的那个策略）

on-policy：行为策略与目标策略相同

off-policy：行为策略与目标策略不同

Policy-Based 方法

Poliocy Gradient 策略梯度

我们期望状态价值是最大的 $J(\theta) = E_s[V_\pi(S)]$

因此我们需要 $\text{max}j(\theta)$

我们采取 **梯度上升： $\theta_{new}=\theta_{old}+\beta \bigtriangledown_\theta J(\theta_{old})$ ，**其中 $\beta$ 为学习率， $\bigtriangledown_\theta J(\theta_{old})$ 为梯度