RL-Ch7-Reward Issue
因为采样的不充分性和种种原因(环境v很少给reward),我们得到环境的回馈信息是很少的,这就是奖励稀疏(sparse reward)的问题。
Reward Shaping
所以第一种方法是我们可以人为构造/修正奖励。
某些情形如果让环境直接给出奖励,难以让好的行为得到学习。例如小学生在出去玩和学习这一当前时间步的选择,很难考虑到未来的月考成绩好坏这一远景的奖励。所以需要人为的重新构造一下奖励,例如加个棒棒糖鼓励学习等。
某些情形环境极少给出奖励。例如在枪战游戏中,对agent的跑动、开枪、血量等进行一个奖励的人工构造,能让agent变得越来越好。
Curiosity
好奇心是一个agent很重要的特质,在马尔可夫奖励过程中加入Intinsic curiosity model(ICM),能够激发agent的好奇心,即探索欲望。

ICM的构造图如下:

ICM鼓励对新的状态进行探索,且$r_t^i$在$s_{t+1}$极难出现时会有极大的奖励。但有些状态难出现但可能不是特别重要,例如在生存游戏中场景出现树叶飘动,针对这类问题,要告知agent场景中的哪些东西是重要的,于是产生了下图的ICM改进方案。

现在的ICM引入了一个场景过滤的函数$\phi$,而由两个过滤后的状态$\phi(s_t)$和$\phi(s_{t+1})$,能够对动作$a_t$的选择进行指导。
Curriculum Learning
学习要循序渐进,从易到难,agent的学习过程也是一样。我们要对它学的课程进行一个难易顺序的设计。
Reverse Curriculum Generation

也叫反推演学习。算法流程如下:
- 给定一个目标状态$s_g$
- 在$s_g$附近取样一组$s_1$
- 尝试走出各个从$s_1$到$s_g$的轨迹(episode)
- 删除episode中reward太大(已经学会了)或太小(难以现在学会)的
- 再在余下的$s_1$的附近中取样$s_2$
Hierarchical Reinforcement Learning
分层强化学习,将最顶端的愿景分解为给下方的agent去完成的子目标。
注意:
- 下方的agent如果不可以完成目标,则上方的agent会得到惩罚。
- 下方的agent如果完成错误的目标,则说明顶端的愿景是错误的。