报告日期

56日星期一

报告时间

10:00-11:30

报告地点

维格堂319

报告人姓名

张慧铭

报告人单位

北京航空航天大学

职称/职务

副教授

报告人简介

张慧铭,北航人工智能研究院的副教授(准聘)。曾在澳门大学担任过濠江学者博士后研究员(2020-2022);曾就读于北京大学(2016-2020)获得统计学博士。研究方向:非渐近推断、稳健估计、高维概率统计、机器学习与深度学习理论、函数型数据、大数据子抽样算法。发表SCI论文22(包括机器学习与人工智能领域顶刊JMLR; 统计顶刊JASA,Biometrika; 精算顶刊IME; 统计、数学、与物理知名期刊Statistica Sinica,   Journal of Complexity, Physica Scripta等;谷歌学术引用超560),其中两篇为Web of   Science高被引论文。目前主持国自科青基一项;担任美国《数学评论》评论员,SCI期刊Mathematics (Q1,中科院三区)的专题顾问委员会成员(Topical Advisory Panel Member)以及该刊的高维与非渐近统计专栏客座主编。曾担任统计、概率、人工智能与机器学习领域顶刊(AOS,AOAP,JASA,JMLR,IEEET-SP)的审稿人。

报告摘要


多臂老虎机(Multi-Armed Bandit)是一种自适应算法,用于寻找多个臂中收益最大的那一个,是强化学习中的一个基本动态优化问题。强化学习是人工智能领域中讨论与关注最多的话题之一。与传统渐近理论关注无限时间的研究不同,多臂老虎机关注的是在有限的时间步骤内使累积奖励最大化。多臂老虎机可以视为强化学习的一个初级模型。对多臂老虎机算法的探索与利用(exploit-explore)问题进行深入研究,对于学习强化学习环境的探索策略也具有重要意义。多臂老虎机算法通过自适应地选择臂来获得最佳利润。这些算法的目标函数是最小化统计遗憾,这里的统计遗憾是指由于未能始终遵循全局最优策略而导致的损失。为了分析算法的收敛性质以及在最不利情况下的表现,我们将介绍多臂老虎机问题的统计遗憾上界速率以及Minimax遗憾速率的证明。接下来,我们将讨论两种算法的遗憾速率:上置信区间(UCB)算法和随机情况下的Minimax最优策略(MOSS)算法。

在非渐近统计推断中,亚高斯分布的类方差型参数至关重要。由于现有的UCB算法包含未知的亚高斯参数,我们提出了亚高斯和小样本假设下的“Bootstrap+亚高斯估计UCB”算法。

 

邀请人:刘洋