摘 要: | 电子商务的迅速发展为在线实时定价奠定了环境基础,本文基于深度强化学习理论提出了一个在不确定性环境下针对有限销售时间段内在线销售给定库存量商品的动态定价学习框架DRL-DP(deep reinforcement learning framework for dynamic pricing)。DRL-DP首先将动态定价问题建模成马尔科夫决策过程(markov decision process, MDP),然后基于深度强化学习理论设计了动态定价算法。实验结果表明在不确定性动态定价环境中,DRL-DP相比于传统的表格式强化学习动态定价算法,能够在需求与环境特征存在相关性时取得更好的收益表现。
|