摘 要: | 【目的/意义】随着信息技术和人工智能的发展,大数据驱动的辅助决策方法让决策更加科学准确。强化学习作为序贯决策的经典方法,在决策优化方面有着明显的优势。但传统方法无法解决多层次、多目标的决策优化问题,尤其是在长周期决策优化问题中,学习奖励的滞后性严重制约着强化学习的效率。【设计/方法】提出基于多智能体强化学习的分层决策优化方法,应用目标分解的思想解决长期决策优化问题。该方法基于强化学习理论使具有层级关系的多智能体相互合作,利用神经网络进行建模,上层智能体学习目标的分解策略,下层智能体学习完成目标的行动策略,智能体参数交替更新,共同学习完成团队任务的最佳策略,实现决策优化。【结论/发现】在临床医疗决策优化的实验中验证了该方法的有效性与优越性,可为解决长周期序列决策优化问题提供理论与方法支持。
|