|
1
2
设计奖励是问题设置的一部分。你想鼓励代理进入唯一动作是阻塞的状态吗?还是应该避免这种状态? 如果不知道优化目标,就不会有正确的答案。与代理人有多少法律诉讼无关。它也不必与值函数做任何事情。如果您通过随机搜索或直接在策略空间中使用遗传算法来训练代理,那么决策同样重要。 另一个问题是如何处理学习过程中的无效行为。如果“阻塞”操作只能在没有其他决定的状态下执行,那么可以重新设计环境,使其自动跳过这些状态。它必须累积“无决策”状态的所有奖励,并将其作为上一个真实决策的组合奖励,并向代理提供下一个真实决策。如果你使用折扣奖励,你必须考虑到折扣因素,为了不修改代理优化的成本函数。
|
|
oakca · 用强化学习代替差分进化实现网络优化控制 1 年前 |
|
|
sleexed · Keras模型突然开始输出张量。如何恢复? 2 年前 |
|
|
user19826638 · 环境`MiniWorld拾取对象`不存在 2 年前 |
|
|
Matt C · PPO模型学习良好,然后只预测负面行为 2 年前 |
|
|
aimkeys mwaura · 动态行动空间的强化学习 2 年前 |