代码之家  ›  专栏  ›  技术社区  ›  Kota Mori

资格跟踪算法,更新顺序

  •  1
  • Kota Mori  · 技术社区  · 6 年前

    我在看书 Silver et al (2012) "Temporal-Difference Search in Computer Go" ,并尝试了解资格跟踪算法的更新顺序。 在本文的算法1和算法2中,在更新合格跟踪之前先更新权值。我想知道这个顺序是否正确(算法1的第11行和第12行,以及算法2的第12行和第13行)。 想想一个极端的例子 lambda=0 ,参数不会用初始状态操作对更新(因为 e

    有人能澄清这一点吗?

    如果有更合适的平台来问这个问题,也请告诉我。

    enter image description here enter image description here

    1 回复  |  直到 6 年前
        1
  •  3
  •   Dennis Soemers    6 年前

    在我看来你是对的, e 应该更新 之前 theta e_t 首先使用 phi(s_t) θ 更新使用 delta V_t (这将是 delta Q 对照组)。

    lambda=0 不完全正确。初始状态动作对仍将参与更新(不是在第一次迭代中,但它们将被合并到 e r 不会在任何更新中使用(因为它只出现在第一次迭代中,其中 e 仍然是 0 ). 既然这篇文章是关于围棋的,我想这无关紧要;除非他们在做一些非常规的事情,否则他们可能只会对终端游戏状态使用非零奖励。