排序方式: 共有1条查询结果,搜索用时 15 毫秒
1
1.
针对传统蒙特卡洛树搜索算法存在“难以在节点的探索和利用之间做出平衡;难以聚焦重要搜索分支”等问题,提出使用策略价值网络完成棋局评估与落子着法生成,将策略价值网络与蒙特卡洛树搜索相结合。策略价值网络指导搜索树的展开,搜索结果用以持续更新网络参数,形成一种自博弈方法,在多轮自博弈中实现算法的迭代优化。实验表明:相较于各种经典搜索算法,所提算法在平均落子时间上降低了约95%,平均对局胜率达到80%以上。 相似文献
1