代码之家  ›  专栏  ›  技术社区  ›  Cerin

学习分层强化任务的结构

  •  2
  • Cerin  · 技术社区  · 14 年前

    我一直在研究分层强化学习问题,虽然很多论文提出了学习策略的有趣方法,但他们似乎都假设他们事先知道描述域中操作的图结构。例如, The MAXQ Method for Hierarchial Reinforcement Learning

    3 回复  |  直到 14 年前
        1
  •  1
  •   Irish Buffer    14 年前

    在dieterich的MAXQ中,图是手工构造的。它被认为是系统设计者的一项任务,就像提出表示空间和奖励函数一样。

    根据您试图实现的目标,您可能希望自动分解状态空间、学习相关特性或将经验从简单任务转移到更复杂的任务。

        2
  •  1
  •   thesilverbail    14 年前

    本文介绍了一种很好的起点方法:

    N.Mehta、S.Ray、P.Tadepalli和T.Dieterich。自动发现和传输MAXQ层次结构。在2008年国际机器学习会议上。

    http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

        3
  •  0
  •   Jose M Vidal    14 年前

    假设有个探员在外面做事。你不知道它的内部目标(任务图)。你如何推断它的目标?

    您正在尝试为代理的内部目标结构建模。为了做到这一点,你需要一些关于什么是一系列可能的目标以及这些目标是如何通过行动来体现的指导。在研究文献中,这个问题已经在术语“计划识别”和POMDP(部分可观察马尔可夫决策过程)的使用下进行了研究,但是这两种技术都假设您确实了解另一个代理的目标。

    如果你对它的目标一无所知,你所能做的就是推断出上面的一个模型(这就是我们人类所做的)。我想其他人也有和我一样的目标。我从来没有想过,“哦,他掉了他的笔记本电脑,他必须准备好下一个蛋”cse,他是一个人。)或模型作为一个黑盒子:一个简单的状态到行动功能,然后添加内部状态需要(嗯,一定有人写了一篇论文,但我不知道是谁)。