RL-Ch1-概括与基础
强化学习
基本概念
强化学习的基本结构如下图1:
annotated:a.标注的
强化学习与监督学习的区别
监督学习:
- 输入数据是i.i.d(独立同分布),数据间无关联。
- 已知结果。
强化学习:
- 输入数据是时序性的。
- 未立刻得到反馈,(奖励延时),需要自己尝试。
- Trail and error exploration
- exploration 做新的尝试,使得Agent未来能做出更好的决策(尝试新餐馆)
- exploitation 在以往经验中选择当下最好的决策(选择最喜欢的餐馆)
- 之前的决策会影响环境。
应用
- 围棋(go)
- 长颈鹿行走(出生30min内学会跑步)
- 股票交易(max reword)
- 玩游戏
deep reinforcement learning(DRL)
rollout:分布式训练
决策序列
在agent与env的交互中产生了决策序列(a series of actions):
- 目标:max总奖励
- action可能会有长期的影响
- reward可能会有延迟
- 近期与远期reward的权衡(trade-off)
历史
决策序列补充上env的部分,即称为历史(History):
$$
H_t=O_1,R_1,A_1,…,A_{T-1},O_t,R_t
$$
其中,H(history),O(observation),A(action),R(reward).
状态
状态是历史的函数,即
$$
S_t=f(H_t)
$$
环境的状态
$$
S_t^e=f^e(H_t)
$$
智能体的状态
$$
S_t^a=f^a(H_t)
$$
当$O_t=S_t^a=S_t^e$时,称系统完全可观测(Fully Observability),反之称为不完全可观测(Partial observability),不完全观测的系统产生的不完全可观测的马尔科夫决策过程(partially observable Markov decision process)。
Agent的组成要素
Policy:智能体的行为模型,f:O/S->A
随机型:$\pi(a|s)=P[A_t=a|S_t=s]$
确定型:$a^*=arg\max_a \pi(a|s)$
Value function:折扣后的未来奖励的加和
折扣因子(discount factor):$\gamma$
$$
V_\pi(s)=\mathbb{E}\pi(G_t|S_t=s)=\mathbb{E}_\pi(\sum{k=0}^{\inf}\gamma^kR_{t+k+1}|S_t=s), for,all,s\in S
$$
$$
q_\pi(s)=\mathbb{E}\pi(G_t|S_t=s,A_t=a)=\mathbb{E}_\pi(\sum{k=0}^{\inf}\gamma^kR_{t+k+1}|S_t=s,A_t=a), for,all,s\in S
$$
式(6)为Q-function(比V-func多一个变量a)。
Model:环境的模型
预测下个状态
$$
P_{ss’}^a=P[S_{t+1}=s’|S_t=s,A_t=a]
$$
预测下个奖励
$$
P_{s}^a=\mathbb{E}[R_{t+1}|S_t=s,A_t=a]
$$
分类
基于Agent的学习
Value-Based Agent:显式学习价值函数,隐式学习策略函数
Policy-Based Agent:显式学习策略函数,不学习价值函数
Actor-Critic Agent:显式学习价值函数和策略函数的组合
基于是否有model
Model-Based:显式学习状态转移模型,可能会学习策略/价值函数
Model-Free:不学习状态转移模型,直接学习策略/价值函数
可总结为如下图: