代码之家 › 专栏 › 技术社区 › Cerin

学习分层强化任务的结构

reinforcement-learning machine-learning artificial-intelligence

Cerin · 技术社区 · 14 年前

我一直在研究分层强化学习问题,虽然很多论文提出了学习策略的有趣方法,但他们似乎都假设他们事先知道描述域中操作的图结构。例如, The MAXQ Method for Hierarchial Reinforcement Learning

3 回复 | 直到 14 年前

Irish Buffer 14 年前

在dieterich的MAXQ中,图是手工构造的。它被认为是系统设计者的一项任务,就像提出表示空间和奖励函数一样。

根据您试图实现的目标,您可能希望自动分解状态空间、学习相关特性或将经验从简单任务转移到更复杂的任务。

thesilverbail 14 年前

本文介绍了一种很好的起点方法:

N.Mehta、S.Ray、P.Tadepalli和T.Dieterich。自动发现和传输MAXQ层次结构。在2008年国际机器学习会议上。

http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

Jose M Vidal 14 年前

假设有个探员在外面做事。你不知道它的内部目标(任务图)。你如何推断它的目标?

您正在尝试为代理的内部目标结构建模。为了做到这一点,你需要一些关于什么是一系列可能的目标以及这些目标是如何通过行动来体现的指导。在研究文献中,这个问题已经在术语“计划识别”和POMDP(部分可观察马尔可夫决策过程)的使用下进行了研究,但是这两种技术都假设您确实了解另一个代理的目标。

如果你对它的目标一无所知,你所能做的就是推断出上面的一个模型(这就是我们人类所做的)。我想其他人也有和我一样的目标。我从来没有想过,“哦,他掉了他的笔记本电脑,他必须准备好下一个蛋”cse,他是一个人。)或模型作为一个黑盒子:一个简单的状态到行动功能,然后添加内部状态需要(嗯,一定有人写了一篇论文,但我不知道是谁)。

推荐文章

SkyWalker · 如何使“UnfinedMetricWarning”静音?

6 月前

Morph3us · 我如何确定谁将赢得罗马尼亚下一届预选赛?[关闭]

6 月前

explorer · AWS SageMaker项目模板创建失败

10 月前

nicklaus-slade · 交叉验证函数返回“未知标签类型:(数组([0.0,1.0],dtype=object),)”

11 月前

Adrian Zambrana · ValuerError:发现样本数不一致的输入变量

12 月前

Kamugg · 在PyTorch中使用不同分辨率图像训练DeepLabV3的最佳实践

1 年前

me0076 · 使用LLM提取多个实体

1 年前

staplegun · scikit中的gbrt_minimize如何决定要尝试多少个参数拆分

1 年前

Chinmaya Tewari · 创建新csv文件时权限被拒绝

1 年前

Seán Healy · LSTM或变压器模型是否有任何可逆实现?

1 年前