news 2026/4/17 20:30:36

【第二十九周】机器学习笔记三十

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【第二十九周】机器学习笔记三十

摘要

本周学习了强化学习中是如何对actor的行为进行评估的,了解了critic的基本概念与工作原理,并进一步学习了Advantage Actor-Critic架构

abstract

This week, I learned about how the actor's behavior is evaluated in reinforcement learning, understood the basic concepts and working principles of the critic, and further studied the Advantage Actor-Critic architecture.

Critic

Critic 在强化学习系统中用于评估和预测价值。通过提供对未来回报的预测来指导 Actor(策略)的学习和优化。 它使得强化学习的学习过程更加稳定和高效

Critic 如何工作?

  1. 观察:Critic 观看 Actor 与环境互动,看到大量的(状态,动作,奖励,下一个状态)数据。

  2. 学习:Critic 使用这些数据,通过时间差分误差等方法来训练自己,目标是让自己对价值的预测越来越准确

  3. 反馈:Critic 将这个预测误差(TD Error)或梯度信息反馈给 Actor。这个误差是 Actor 学习的核心信号:

    • 如果误差为正:说明实际结果比预期好,Actor 应该加强导致这个结果的行为。

    • 如果误差为负:说明实际结果比预期差,Actor 应该减弱导致这个结果的行为。

强化学习两种方法

强化学习中两个核心概念:蒙特卡洛方法时序差分学习。蒙特卡洛(MC):通过完整轨迹的真实回报来更新价值估计。时序差分(TD):通过相邻状态的估计值差分来更新价值估计。

特性蒙特卡洛时序差分
更新时机必须等到一幕结束每步之后立即更新
学习目标实际累积回报 GtGt​TD目标 Rt+1+γV(St+1)Rt+1​+γV(St+1​)
偏差/方差无偏,高方差有偏,低方差
对环境的了解不需要环境模型不需要环境模型(都是无模型方法)
收敛性收敛性较好,但慢通常收敛更快,但不一定收敛到全局最优
核心概念采样,完整回报自举,TD误差

Advantage Actor-Critic

A2C的核心是引入优势函数的Actor-Critic架构。Critic学习状态价值V(s)作为基线,通过TD误差估计优势函数A(s,a)=Q(s,a)-V(s),衡量动作相对平均水平的优劣。Actor使用优势估计而非原始回报更新策略,大幅降低方差。这种"评估优势+策略优化"的双网络结构,使智能体既获得低方差更新信号,又能精确分配动作价值,成为现代策略梯度算法的稳定基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 6:29:39

变量IV值高到“爆表”,是发现宝藏还是踩中陷阱?

“这个变量的IV值居然有1.2!是不是算错了?”“营销数据里出现IV值0.8的变量,该高兴还是该怀疑?”如果你是数据分析师或建模工程师,这样的对话一定不陌生。IV值(信息价值)作为衡量变量预测能力的标尺,在金融风控中备受推崇,但当它高得“异常”时,却可能引发两种截然不同…

作者头像 李华
网站建设 2026/4/14 23:43:55

贝叶斯优化随机森林的故障诊断附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和…

作者头像 李华
网站建设 2026/4/18 8:08:19

《AI应用架构师视角:AI发展怎样改变与社会责任的关系》

AI应用架构师视角:AI发展怎样改变与社会责任的关系 一、开场:当AI的“无心之过”变成架构师的“必须解答” 凌晨三点,我在医院急诊室的走廊里刷到一条朋友圈——是做儿科医生的老同学发的:“今晚接诊了一个高烧惊厥的孩子&#xf…

作者头像 李华
网站建设 2026/4/18 8:40:51

揭秘:AI应用架构师借助AI驱动市场分析引领行业变革的背后逻辑

揭秘AI应用架构师的“市场分析武器库”:用AI重构行业决策的底层逻辑 一、引言:传统市场分析的“死胡同”,AI架构师如何破局? 深夜11点,某零售企业市场部经理张丽盯着电脑屏幕上的Excel表格,揉了揉发涩的眼睛——这是她本周第3次调整下月的库存计划。上周刚因为“没预料…

作者头像 李华
网站建设 2026/4/18 7:37:52

从入门到精通:大数据环境下的数据脱敏实战指南

从入门到精通:大数据环境下的数据脱敏实战指南 关键词:数据脱敏、隐私保护、敏感数据识别、脱敏算法、合规性、大数据处理、动态脱敏 摘要:在大数据时代,用户隐私泄露事件频发,企业面临《个人信息保护法》《GDPR》等严格法规约束。本文从“为什么需要数据脱敏”出发,用“…

作者头像 李华
网站建设 2026/4/18 7:55:56

C++之继承与组合

继承与组合是C实现代码重用的两种主要方法继承是Is-a的关系&#xff0c;比如水果和梨组合是Has-a的关系&#xff0c;图书馆有图书 #include <iostream> using namespace std; class vehicles{ //交通工具 public:void load(const string& goods){cout << "…

作者头像 李华