9月6日,南开大学商学院管理科学与工程系邀请到北京大学光华管理学院彭一杰副教授做客“南开富国商科大讲堂”,开展题为“Fast-Slow Dual-Agent Deep Reinforcement Learning for Dynamic Pricing and Replenishment”的学术讲座。本次讲座由南开大学商学院管理科学与工程系主任李勇建教授主持,管科系硕士生、博士生及部分青年教师参加。
讲座嘉宾彭一杰老师是北京大学光华管理学院副教授,博士生导师。现担任北京大学人工智能研究院多智能体与社会智能中心执行主任、北京大学武汉人工智能研究院多智能体与决策智能实验室主任、北京大学信息技术高等研究院多智能体与工业智能实验室主任。他本科毕业于武汉大学数学与统计学院,从复旦大学管理学院获博士学位,在美国马里兰大学和乔治梅森大学分别从事过博士后与助理教授工作。他的主要研究方向包括仿真建模与优化、金融工程与风险管理、人工智能、健康医疗等,主持了优秀青年科学基金、原创探索计划、杰出青年科学基金等,在《Operations Research》、《INFORMS Journal on Computing》、《IEEE Transactions on Automatic Control》等高质量期刊与人工智能顶会上发表学术论文,曾获INFORMS Outstanding Simulation Publication Award、教育部第九届高等学校科学研究优秀成果二等奖。他目前担任Asia-Pacific Journal of Operational Research、Journal of Systems Science and Information副主编、《系统管理学报》领域主编,北京运筹学会副理事长、全国工业统计学教学研究会金融科技与大数据分会副理事长、管理科学与工程协会理事。
本次讲座中,彭一杰老师详细介绍了他关于不一致决策频率下动态定价和补货问题的一项研究。与传统库存管理研究中常常采用的一些简化的需求假设不同,彭老师在该研究中考虑了需求的离散性、未交付订单积压、竞争对手策略等,这些增加了分析问题特性时的复杂度。通过对单期利润函数的性质进行分析发现,该利润函数在产品价格和库存各自的域中是凹的。接着,通过集成基于决策树的机器学习方法增强了模型。该方法在真实市场数据上进行了训练,采用双时间尺度随机逼近方法,有效解决了定价和补货决策频率的差异,保证了相应常微分方程收敛到极限点。研究还通过单产品和多产品的数值结果验证了新方法的有效性。
彭一杰老师介绍完这项研究后,现场师生就模型所需数据量、新旧方法的对比等方面提出了问题,彭老师耐心细致地对这些问题进行了一一解答,让大家深受启发。