不确定性环境下在线实时定价的深度强化学习策略期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

不确定性环境下在线实时定价的深度强化学习策略

作者姓名：	王祖德陈彩华李敏

作者单位：	南京大学工程管理学院

基金项目：	江苏省自然科学基金资助项目(BK20181259);;国家自然科学基金资助项目(11871269)~~;

摘要：	电子商务的迅速发展为在线实时定价奠定了环境基础,本文基于深度强化学习理论提出了一个在不确定性环境下针对有限销售时间段内在线销售给定库存量商品的动态定价学习框架DRL-DP(deep reinforcement learning framework for dynamic pricing)。DRL-DP首先将动态定价问题建模成马尔科夫决策过程(markov decision process, MDP),然后基于深度强化学习理论设计了动态定价算法。实验结果表明在不确定性动态定价环境中,DRL-DP相比于传统的表格式强化学习动态定价算法,能够在需求与环境特征存在相关性时取得更好的收益表现。
关键词：	动态定价深度强化学习收益管理