RL-Ch8-Imitation Learning

2020-10-28

要使Agent有人的智慧有两种手段：

强化学习(Reinforcement Learning)
模仿学习(Imitation Learning)

模仿学习，又称Learning by demonstration/apprenticeship(学徒) learning。为何会出现模仿学习呢？
与环境互动，却难以明确reward的数值
一些任务难以定义reward
人工设定的reward可能导致agent一些不可控的行为(撞死人)

模仿学习的方法：

Behaviour Cloning

此时BC等效于监督学习，在确定的状态$s_i$下要输出$a_i$逼近专家的经验值$\hat{a_i}$。而这会出现以下问题：

第一种问题可以使用Dataset Aggression的方法进行解决。具体做法是：面对错误的数据，不进行在线修改(即单步修正)，专家对错误数据给出标签，在回合结束后，本轮训练数据成为新的训练数据。

Mismatch。监督学习中，训练数据与测试数据符合同分布，而在behaviour cloning中，训练时使用的策略是专家的$\hat{\pi}$，使用的数据是(s,a)；而测试时使用的时actor的$\pi^$，使用的数据是(s’,a’)。若$\hat{\pi}=\pi^$，则采样到的(s’,a’)与(s,a)属于同分布，反之，则s’与s的分布可能会不一样，监督学习也就无从谈起了。