摘 要: | 针对UCT算法的准确性受搜索次数影响较大的问题,提出一种结合神经网络的改进UCT算法。利用神经网络输出每一步的平均行动价值Q,结合改进的UCT算法寻找搜索过程中的高潜力节点。将传统UCT搜索改进为3个阶段:首先,通过已训练好的神经网络模型和UCT算法对当前所有子节点进行初次搜索,获得高潜力子节点;其次,利用剪枝操作去掉部分子节点,提升被搜索节点的质量;最后,二次搜索保留的高潜力子节点获得最优策略。另外,在分次搜索的过程中引入节点保留数量因子R和搜索比例因子P,辅助分次搜索,增加搜索的有效性。将其引入国际跳棋游戏中,实验结果表明:改进后的算法与其他算法相比胜率有所提升,验证了该算法的可行性。
|