代码之家 › 专栏 › 技术社区 › Kota Mori

资格跟踪算法,更新顺序

monte-carlo-tree-search sarsa reinforcement-learning machine-learning algorithm

1

Kota Mori · 技术社区 · 7 年前

我在看书 Silver et al (2012) "Temporal-Difference Search in Computer Go" ,并尝试了解资格跟踪算法的更新顺序。在本文的算法1和算法2中,在更新合格跟踪之前先更新权值。我想知道这个顺序是否正确(算法1的第11行和第12行,以及算法2的第12行和第13行)。想想一个极端的例子 lambda=0 ,参数不会用初始状态操作对更新(因为 e

有人能澄清这一点吗?

如果有更合适的平台来问这个问题,也请告诉我。

1 回复 | 直到 7 年前

1

3

Dennis Soemers 7 年前

在我看来你是对的, e 应该更新之前 theta e_t 首先使用 phi(s_t) θ 更新使用 delta V_t (这将是 delta Q 对照组)。

lambda=0 不完全正确。初始状态动作对仍将参与更新(不是在第一次迭代中,但它们将被合并到 e r 不会在任何更新中使用(因为它只出现在第一次迭代中,其中 e 仍然是 0 ). 既然这篇文章是关于围棋的,我想这无关紧要;除非他们在做一些非常规的事情,否则他们可能只会对终端游戏状态使用非零奖励。