代码之家 › 专栏 › 技术社区 › smci

找到最佳/足够好的策略和人工智能来“接近”游戏?

game-theory artificial-intelligence

smci · 技术社区 · 15 年前

’ 接近 “是一个战略游戏的领土控制类似奥赛罗,去和风险。两个玩家,使用10x12六角网格。游戏发明者 坎布尔 2007。

对于讨论A)最优算法,然后B)如何构建人工智能似乎是一个很有价值的游戏。
由于随机性因素和疯狂的分支因素(20^120),策略将是基于概率或启发式的。所以客观比较起来有点困难。 每圈最多5秒的计算时间限制似乎是合理的=>这排除了所有暴力尝试。 (在专家级别玩游戏的人工智能以获得感觉-基于一些简单的启发式方法,它做得非常好)

游戏: Flash version here , iPhone version iProximity here 在网上的其他地方也有很多副本规则: here

对象 :在所有的瓦片都被放置好之后控制大多数军队。你从一个空的六角板开始。每回合你会收到一个随机编号的瓦片(值在1到20个军队之间),放置在任何空置的棋盘空间上。如果此瓷砖与任何盟友瓷砖相邻,它将加强这些瓷砖的防御+1(最大值为20)。如果它与任何敌人的牌相邻,如果它的数目高于敌人牌上的数目,它将控制它们。

战略思考: 以下是一些初步想法;将计算机人工智能设置为专家可能会教很多东西:

减少你的周界似乎是一个很好的策略,以防止翻转和减少最坏情况的损害。
就像在围棋中一样,在你的队形中留下洞是致命的,只有在使用六角形格架时才会更致命,因为你一次可以在最多6个方格内损失军队。
低编号瓷砖是一种责任,所以把它们远离你的主要领土,靠近板边缘和分散。你也可以使用低编号的牌来堵住你队形中的洞,或者在对手不会费心攻击的范围内取得小的进展。
三片三角形的形成是很强的,因为它们相互加强,而且也减少了周长。
每块瓷砖最多可翻转6次,即相邻瓷砖被占用时。地层的控制可以来回流动。有时,你会丢失一部分队形,堵塞任何洞,使棋盘的那部分“死亡”,并锁定在你的领土上/防止进一步的损失。
低编号瓦片是显而易见的,但价值较低的负债,但高编号瓦片如果被翻转(这更难)。一个幸运的游戏使用20个军牌可以造成200个摇摆(从+100到-100个军队)。因此,瓷砖的放置既有进攻性的考虑,也有防御性的考虑。

注释1、2、4似乎类似于极大极小策略,其中我们将最大预期可能损失最小化(通过对值的一些概率考虑进行修改;对手可以从1..20中获得,即只能由=20瓷砖翻转的结构是“几乎不可侵犯的”。) 我不清楚评论3、5、6对最优策略的影响。对围棋、国际象棋或奥赛罗棋手的评论感兴趣。

(续集) ProximityHD for XBox Live, allows 4-player -cooperative or -competitive local multiplayer 增加分支因子,因为您现在在任何给定时间手中都有5个牌,其中您只能玩一个。Ally瓷砖的钢筋增加到每个Ally的+2。)

2 回复 | 直到 13 年前

Miquel Ramirez 15 年前

对于一般算法,我建议您检查阿尔伯塔大学人工智能游戏组所做的研究: http://games.cs.ualberta.ca 那里的许多算法保证找到最佳策略。不过,我怀疑你是否真的有兴趣找到最理想的游戏,除非你想在韩国销售,否则就要瞄准“足够好”的游戏。

从你的描述中,我已经了解到游戏是一个两人游戏,具有完全的可观察性,即没有隐藏的单位和这样的完全确定性,即玩家的行动结果不需要滚动,那么你应该看看由美国阿尔伯塔人提出的实时有界搜索极大极小导数。但是,能够进行绑定以及值函数备份的深度可能是向游戏添加“难度级别”的好方法。他们一直在做一些工作-有点可疑的IMO-抽样搜索空间,以提高价值函数估计。

关于你所描述的“战略”部分:在我提到的框架中,你必须将知识编码为一个评估函数。看看Michael B_¼Ro和其他人的作品——同样是在U Alberta集团——以获取此类知识工程的例子。

另一种可能是把这个问题当作一个强化学习问题,对手的行动被汇编成“后状态”。在Barto&Sutton的书中查找: http://webdocs.cs.ualberta.ca/~sutton/book/the-book.html 然而,由这种编译产生的RL问题的值函数可能证明有点难以优化地解决——状态的数量将像氢弹一样爆炸。但是,如果您看到如何使用分解表示,事情可能会容易得多。你的“策略”可能被编码成某种形状函数,这将大大加快学习过程。

编辑:该死的英语介词

Shaggy Frog 15 年前

以前是这里一个游戏小组的成员。

那个分支因子是疯狂的。比去还糟。

基本上,你被套住了。

这个游戏的问题是,由于随机瓷砖的选择,它不具有确定性。这实际上在树中的每个现有节点层之间添加了另一层节点。你会对我的 publications on *-Minimax 学习随机域搜索技术。

为了在本世纪末之前完成单层搜索,您需要一些非常积极的正向修剪技术。尽早把最好的搬出窗户,集中精力建立良好的搬动秩序。