RL-Ch1-概括与基础

2020-10-21

RL-Ch1-概括与基础

强化学习

基本概念

强化学习的基本结构如下图1：

图1 强化学习系统结构图

annotated：a.标注的

强化学习与监督学习的区别

监督学习：

输入数据是i.i.d(独立同分布)，数据间无关联。
已知结果。

强化学习：

输入数据是时序性的。
未立刻得到反馈，(奖励延时)，需要自己尝试。
Trail and error exploration
- exploration 做新的尝试，使得Agent未来能做出更好的决策（尝试新餐馆）
- exploitation 在以往经验中选择当下最好的决策（选择最喜欢的餐馆）
之前的决策会影响环境。

应用

围棋(go)
长颈鹿行走(出生30min内学会跑步)
股票交易(max reword)
玩游戏

deep reinforcement learning(DRL)

图2 深度强化学习

rollout：分布式训练

决策序列

在agent与env的交互中产生了决策序列(a series of actions)：

目标：max总奖励
action可能会有长期的影响
reward可能会有延迟
近期与远期reward的权衡(trade-off)

历史

决策序列补充上env的部分，即称为历史(History)：
$$
H_t=O_1,R_1,A_1,…,A_{T-1},O_t,R_t
$$
其中，H(history)，O(observation)，A(action)，R(reward).

状态

状态是历史的函数，即
$$
S_t=f(H_t)
$$
环境的状态
$$
S_t^e=f^e(H_t)
$$

智能体的状态
$$
S_t^a=f^a(H_t)
$$

当$O_t=S_t^a=S_t^e$时，称系统完全可观测(Fully Observability)，反之称为不完全可观测(Partial observability)，不完全观测的系统产生的不完全可观测的马尔科夫决策过程(partially observable Markov decision process)。

Agent的组成要素

Policy：智能体的行为模型，f:O/S->A

随机型：$\pi(a|s)=P[A_t=a|S_t=s]$

确定型：$a^*=arg\max_a \pi(a|s)$

Value function：折扣后的未来奖励的加和

折扣因子(discount factor)：$\gamma$

$$
V_\pi(s)=\mathbb{E}\pi(G_t|S_t=s)=\mathbb{E}_\pi(\sum{k=0}^{\inf}\gamma^kR_{t+k+1}|S_t=s), for,all,s\in S
$$

$$
q_\pi(s)=\mathbb{E}\pi(G_t|S_t=s,A_t=a)=\mathbb{E}_\pi(\sum{k=0}^{\inf}\gamma^kR_{t+k+1}|S_t=s,A_t=a), for,all,s\in S
$$

式(6)为Q-function(比V-func多一个变量a)。

Model：环境的模型

预测下个状态
$$
P_{ss’}^a=P[S_{t+1}=s’|S_t=s,A_t=a]
$$
预测下个奖励
$$
P_{s}^a=\mathbb{E}[R_{t+1}|S_t=s,A_t=a]
$$

BevanWu

RL-Ch1-概括与基础

RL-Ch1-概括与基础

强化学习

基本概念

强化学习与监督学习的区别

应用

deep reinforcement learning(DRL)

决策序列

历史

状态

Agent的组成要素

分类