news 2026/6/10 17:22:21

2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2025_NIPS_Follow-the-Perturbed-Leader Nearly Achieves Best-of-Both-Worlds for the m-Set Semi-Bandit

文章核心总结与翻译

一、主要内容

本文聚焦m-集半臂赌博机问题(从d个臂中精确选择m个臂的组合半臂赌博机场景),研究了Follow-the-Perturbed-Leader(FTPL)算法在对抗性和随机性环境下的性能。在对抗性环境中,已知Follow-the-Regularized-Leader(FTRL)算法能达到O(√(nmd))的最优遗憾界,但需通过优化问题计算臂选择概率;而FTPL算法通过随机扰动选择损失最小的m个臂,无需复杂计算。作者证明了带Fréchet扰动的FTPL算法在对抗性环境下达到近最优遗憾界O(√(nm)(√(d log d)) + m^(5/6)),在随机性环境下实现对数级遗憾界O(∑(log n)/Δ_i)(Δ_i为非最优臂的次优间隙),接近“两全其美”(Best-of-Both-Worlds, BOBW)性能。同时通过下界证明,算法中的额外因子(log d和m(5/6)/d(1/2))无法通过现有方法移除,进一步改进需全新分析框架。

二、创新点

  1. 首次将FTPL算法扩展到m-集半臂赌博机场景,实现了对抗性和随机性环境下的近BOBW性能(m ≤ d/2时)。
  2. 扩展了FTRL分析框架,适配m-集动作空间凸包无内点的特性,简化了原有证明逻辑。
  3. 解决了m-集半臂赌博机中臂选择概率结构复杂的分析难题,通过Fréchet扰动的特性保证算法效率。
  4. 建立了算法的下界,明确现有方法的性能极限,为后续研究指明方向。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 10:46:44

AI测试数据集构建:工程化实践与质量保障体系

一、AI测试数据的独特性与挑战 与传统测试数据的本质差异 三维验证需求:模型精度、鲁棒性、伦理合规性(如GDPR/《生成式AI服务管理办法》) 对抗性样本必要性:FGSM攻击样本覆盖率需≥15%(IEEE标准ISO/IEEE 29119-11:20…

作者头像 李华
网站建设 2026/6/10 12:12:59

从0到1:新手如何高效克隆一个Demo代码仓库!

每一个开发者都曾从克隆第一个代码仓库开始自己的技术旅程。对于新手来说,掌握这一基础技能至关重要。本文将聚焦于实际操作,手把手引导你完成Demo仓库的克隆,迈出编程实践的关键一步。 一、下载模组的示例代码 下载示例代码到一个合适的项目…

作者头像 李华
网站建设 2026/6/10 10:42:55

Cadence 1.8V LDO电路设计之旅

cadance 1.8v LDO电路 cadance virtuoso 设计 模拟电路设计 LDO带隙基准电路设计 带设计报告(14页word) 基于tsmc18工艺,模拟ic设计 bandgapLDO 1.8v LDO电路 包含工程文件和报告 可以直接打开在模拟电路设计的领域中,Cadence Vir…

作者头像 李华
网站建设 2026/6/7 16:06:54

SpringBoot的高校宣讲会管理系统

博主介绍:✌ 专注于Java,python,✌关注✌私信我✌具体的问题,我会尽力帮助你。一、研究目的本研究旨在设计并实现一个基于SpringBoot的高校宣讲会管理系统,以提升高校宣讲会的组织效率和管理水平。具体研究目的如下: 首先&#xf…

作者头像 李华
网站建设 2026/6/10 12:39:08

基于灰色马尔科夫的预测研究附matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

作者头像 李华