Recent advances in Distributional Reinforcement Learning分布式强化学习的最新进展

时间:2024-01-20


主讲人上海财经大学 周帆副教授

主持人统计学院 林华珍教授

时间:1月22日 15:00-16:00


主办单位:统计研究中心和统计学院 科研处


周帆,上海财经大学统计与管理学院副教授,博士毕业于美国北卡罗莱纳大学教堂山分校。主要研究方向包括强化学习,深度学习,因果推断。在Journal of American Statistical Association,Journal of Machine Learning Research, Biometrics等统计学机器学习期刊以及NeurIPS, ICML, KDD等国际人工智能顶会接收发表一作通讯文章数十篇,曾获得国际泛华统计协会新研究者奖,北卡教堂山分校Barry H. Margolin Award,并入选上海市人才计划(青年)。


Although distributional reinforcement learning (DRL) has been widely examined in the past few years, very few studies investigate the validity of the obtained Q-function estimator in the distributional setting. We discuss some of our works in ensuring the monotonicity of the obtained quantile estimates and the theoretical necessity. Moreover, we undertake a comprehensive analysis of how the approximation errors within the Q-function impact the overall training process in DRL. We both theoretically analyze and empirically demonstrate techniques to reduce both bias and variance in these error terms, ultimately resulting in improved performance in practical applications.

分布式强化学习(DRL)在过去几年里得到了广泛的研究,但很少有研究调查在分布式环境中获得的 Q 函数估计器的有效性。主讲人将介绍为确保所获得的分位数估计的单调性方面所做的一些工作并探讨理论上的必要性。此外,主讲人对Q函数中的近似误差如何影响DRL的整体训练过程进行了全面分析。主讲人将对减少这些误差项中的偏差和方差的技术进行理论分析和实证演示,并展示这一技术最终在实际应用中实现了性能的提高。

