![]() |
1
3
奖励功能可能是问题所在。强化学习方法试图最大化 预期总报酬 ; 它在游戏中的每一步都会得到积极的奖励,所以最佳策略是尽可能长时间地玩!q值,用于定义 价值函数 (在一个状态下采取行动,然后表现最佳的预期总回报)正在增长,因为正确的期望是无限的。为了激励你获胜,你应该在每一步都得到一个负奖励(有点像告诉经纪人快点赢)。 见3.2目标和奖励 强化学习:简介 了解奖励信号的目的和定义。你面临的问题实际上是练习书中的3.5。 |
![]() |
2
1
|
![]() |
ginad · 如何在go-app组件中执行javascript代码 5 月前 |
![]() |
Jason Fingar · 方法在另一个方法的上下文中不可访问 6 月前 |
![]() |
Jess The Witch · GCP云功能中处理延迟任务的模式 6 月前 |
![]() |
pmoubed · 这是使用计时器的goroutine泄漏吗? 6 月前 |