RL-Ch7-Reward Issue

2020-10-27

因为采样的不充分性和种种原因(环境v很少给reward)，我们得到环境的回馈信息是很少的，这就是奖励稀疏(sparse reward)的问题。

Reward Shaping

所以第一种方法是我们可以人为构造/修正奖励。

某些情形如果让环境直接给出奖励，难以让好的行为得到学习。例如小学生在出去玩和学习这一当前时间步的选择，很难考虑到未来的月考成绩好坏这一远景的奖励。所以需要人为的重新构造一下奖励，例如加个棒棒糖鼓励学习等。

某些情形环境极少给出奖励。例如在枪战游戏中，对agent的跑动、开枪、血量等进行一个奖励的人工构造，能让agent变得越来越好。

好奇心是一个agent很重要的特质，在马尔可夫奖励过程中加入Intinsic curiosity model(ICM)，能够激发agent的好奇心，即探索欲望。

ICM的构造图如下：

ICM鼓励对新的状态进行探索，且$r_t^i$在$s_{t+1}$极难出现时会有极大的奖励。但有些状态难出现但可能不是特别重要，例如在生存游戏中场景出现树叶飘动，针对这类问题，要告知agent场景中的哪些东西是重要的，于是产生了下图的ICM改进方案。

现在的ICM引入了一个场景过滤的函数$\phi$，而由两个过滤后的状态$\phi(s_t)$和$\phi(s_{t+1})$，能够对动作$a_t$的选择进行指导。

学习要循序渐进，从易到难，agent的学习过程也是一样。我们要对它学的课程进行一个难易顺序的设计。

也叫反推演学习。算法流程如下：

分层强化学习，将最顶端的愿景分解为给下方的agent去完成的子目标。

注意：