|
|
1
1
在dieterich的MAXQ中,图是手工构造的。它被认为是系统设计者的一项任务,就像提出表示空间和奖励函数一样。 根据您试图实现的目标,您可能希望自动分解状态空间、学习相关特性或将经验从简单任务转移到更复杂的任务。
|
|
|
2
1
本文介绍了一种很好的起点方法: N.Mehta、S.Ray、P.Tadepalli和T.Dieterich。自动发现和传输MAXQ层次结构。在2008年国际机器学习会议上。 |
|
|
3
0
假设有个探员在外面做事。你不知道它的内部目标(任务图)。你如何推断它的目标?
您正在尝试为代理的内部目标结构建模。为了做到这一点,你需要一些关于什么是一系列可能的目标以及这些目标是如何通过行动来体现的指导。在研究文献中,这个问题已经在术语“计划识别”和POMDP(部分可观察马尔可夫决策过程)的使用下进行了研究,但是这两种技术都假设您确实了解另一个代理的目标。 如果你对它的目标一无所知,你所能做的就是推断出上面的一个模型(这就是我们人类所做的)。我想其他人也有和我一样的目标。我从来没有想过,“哦,他掉了他的笔记本电脑,他必须准备好下一个蛋”cse,他是一个人。)或模型作为一个黑盒子:一个简单的状态到行动功能,然后添加内部状态需要(嗯,一定有人写了一篇论文,但我不知道是谁)。 |
|
oakca · 用强化学习代替差分进化实现网络优化控制 1 年前 |
|
|
sleexed · Keras模型突然开始输出张量。如何恢复? 2 年前 |
|
|
user19826638 · 环境`MiniWorld拾取对象`不存在 2 年前 |
|
|
Matt C · PPO模型学习良好,然后只预测负面行为 3 年前 |
|
|
aimkeys mwaura · 动态行动空间的强化学习 3 年前 |