RL-Ch3-基于表格方法求解RL

2020-10-23

RL-Ch3-基于表格方法求解RL

本文不太完善，待寻到时间再细细修改。

前情回顾

MDP为(S,A,P,R,$\gamma$)五元组，在上一状态$s_t$采取动作$a_t$，会以一定的概率分布p进入下一状态$s_{t+1}$，同时产生一定的收益$r_t$。

图1 MDP树状图

与环境交互过程会学习到P(transimision Probability matrix)函数$p(s_{t+1},r_t|s_t,a_t)$和R(Reward)函数$r(s_t,a_t)$，以此作为环境的描述。若事先通过虚拟环境获知了P和R函数，再应用于现实进行决策，则称这个系统是Model-Based的，反之则称该系统是Model-Free的。

Model-Based：P/R函数已知（图1中的黑色主体图+红色部分）

Model-Free：P/R函数未知（图1中的黑色主体图+绿色部分）

Q(Action-value)-table

在不同的状态采取不一样的行动会产生不一样的效果，而Q-func就是用于度量这种效果，由此也产生了Q-table的说法。

有限步Markov Chain的当前Q(动作状态)值为
$$
G_t=R_1+…+R_T
$$

无限步Markov Chain的当前Q(动作状态)值为
$$
\begin{align} G_t=R_{t+1}+\gamma R_{t+2}+…=\sum_{k=0}^\inf\gamma R_{t+k+1}=R_{t+1}+\gamma\sum_{k=0}^\inf\gamma^kR_{t+k+2}=R_{t+1}+\gamma G_{t+1}\end{align}
$$

以Cliff Walker这一经典游戏为例，讲解如何对实际情况建立Q表格。将地点划分为网格区域，每个方格有一个坐标位置，以左上角为原点，建立x、y轴正方向，则可得到一系列坐标，即状态state。上下左右为可采取的动作action。通过全部取零的操作完成Q表的初始化。然后通过一系列新算法进行后续Q表的更新。