news 2026/4/18 8:27:30

强化学习:慢网络何以学得更快

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习:慢网络何以学得更快

在强化学习(RL)中,智能体通过试错与环境反复交互,学习一种能最大化奖励信号的策略。

近年来,强化学习智能体与深度神经网络结合使用取得了显著成果。其中核心部分是2015年提出深度Q网络(DQN)智能体的论文,它在一大批雅达利游戏上超越了人类水平。DQN的一个核心组件是一个优化器,它调整神经网络的参数以最小化DQN目标。我们通常使用深度学习中的标准优化算法,但这些算法在设计时并未考虑解决深度强化学习时出现的复杂性。

在今年的神经信息处理系统大会(NeurIPS)上,提出了一种新型优化器,它更适合应对强化学习的困难。该优化器采用了一种称为近端更新的简单技术,使我们能够通过确保神经网络的权重平稳且缓慢地变化来对冲噪声更新的影响。为此,当没有迹象表明这样做会损害智能体时,我们将网络导向其先前的解决方案。

研究表明,DQN智能体最好被视为解决一系列优化问题。在每次迭代中,新的优化问题都基于前一次迭代(即上一次迭代产生的网络权重)。这个先前的迭代也是深度强化学习文献中所谓的目标网络,它是我们倾向的解决方案。

虽然目标网络编码了先前的解决方案,但第二个网络(在文献中称为在线网络)则寻找新的解决方案。该网络在每一步都通过朝着最小化DQN目标的方向进行更新。

最小化DQN目标产生的梯度向量需要足够大,以抵消朝向先前解决方案(目标网络)的默认“引力”。如果在线网络和目标网络接近,近端更新的行为将与标准DQN更新类似。但如果两个网络相距甚远,近端更新可能与DQN更新显著不同,因为它会鼓励缩小两个网络之间的差距。在此公式中,可以调整先前解决方案施加的引力强度,噪声越大的更新需要越强的引力。

虽然近端更新导致神经网络参数的变化更慢,但它们也导致在获得高奖励(强化学习中主要的关注量)方面改进更快。研究证明,这种改进既适用于智能体的中期性能,也适用于其渐近性能。它同时适用于带有噪声的规划环境,以及噪声几乎必然存在的大规模领域学习环境。

为了在学习环境中评估该方法,将近端更新添加到两种标准RL算法中:上述的DQN算法和更具竞争力的Rainbow算法(后者结合了RL中各种现有的算法改进)。

然后将新算法(称为带近端更新的DQNRainbow Pro)在一套标准的55个雅达利游戏上进行测试。从结果图中可以看出:(1)Pro版本智能体的表现优于其对应版本;(2)基本的DQN智能体在与环境进行1.2亿次交互(帧)后能够达到人类水平;(3)Rainbow Pro相比原始Rainbow智能体实现了40%的相对改进

此外,为了确认近端更新确实导致参数变化更平稳、更慢,测量了连续DQN解决方案之间的范数差异。预计使用近端更新时,更新幅度会更小。在下方图表中,在测试的四个不同雅达利游戏上证实了这一预期。

总体而言,实证和理论结果支持这一主张:在深度强化学习中为新的解决方案进行优化时,让优化器倾向于先前的解决方案是有益的。更重要的是,我们看到深度强化学习优化中的简单改进可以带来智能体性能的显著积极增益。我们认为这证明了进一步探索深度强化学习中的优化算法将富有成果。

该解决方案的源代码已在GitHub上发布。FINISHED
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 8:27:12

学霸同款! 降AIGC网站 千笔·专业降AI率智能体 VS WPS AI 专科生首选

在AI技术迅速发展的今天,越来越多的学生开始借助AI工具辅助论文写作,以提升效率和内容质量。然而,随着学术查重系统对AI生成内容的识别能力不断提升,"AI率超标"问题逐渐成为毕业论文中的“隐形杀手”。许多学生在使用AI…

作者头像 李华
网站建设 2026/4/12 22:48:42

分布式驱动电动汽车LQR DYC 直接横摆力矩控制 最优/规则扭矩分配控制pid计算纵向扭矩需求

分布式驱动电动汽车LQR DYC 直接横摆力矩控制 最优/规则扭矩分配控制pid计算纵向扭矩需求, 上层lqr计算 下层最小附着利用率分配 扭矩分配 效果优良 稳定性控制 操纵稳定性 matlab simulink代码源码 carsim联合仿真 二次规划,理想质心侧偏角横摆角速度期…

作者头像 李华
网站建设 2026/4/18 8:07:29

分享一套优质的微信小程序校园志愿者系统(SpringBoot后端+Vue3管理端)

大家好,我是锋哥,看到一个不错的微信小程序校园志愿者系统(SpringBoot后端Vue3管理端),分享下哈。项目介绍随着新世纪的到来,无纸化办公的潮流席卷全球,自动化信息处理技术和基于网络的信息交流方式逐渐成为各行各业的…

作者头像 李华
网站建设 2026/4/9 5:05:14

格式总出错?AI论文写作软件 千笔·专业论文写作工具 VS PaperRed

随着人工智能技术的迅猛发展,AI辅助写作工具已经逐渐成为高校学生完成毕业论文的重要帮手。无论是开题报告、文献综述还是整篇论文的撰写,越来越多的学生开始借助AI工具提升效率、降低写作难度。然而,在众多功能各异的AI写作平台中&#xff0…

作者头像 李华
网站建设 2026/4/18 7:41:21

Java语言提供了八种基本类型。六种数字类型【函数函数123】

变量就是申请内存来存储值。也就是说,当创建变量的时候,需要在内存中申请空间。 内存管理系统根据变量的类型为变量分配存储空间,分配的空间只能用来储存该类型数据。 因此,通过定义不同类型的变量,可以在内存中储存整…

作者头像 李华
网站建设 2026/4/18 8:06:46

selenium 自动化测试工具实战项目(窗口切换)

介绍 测试的系统:白月黑羽网站的测试系统(白月SMS系统) 测试内容:点击【学习教程】链接跳转到白月黑羽网站,获取此网站上的标题,然后回到原来的系统。 所涉及的知识点:frame切换/窗口切换 这个iframe元素非常的特殊&…

作者头像 李华