大模型学习基础（六）强化学习（Reinforcement Learning，RL）初步1.2-程序员充电站

我们已经知晓强化学习的基本要素有actor、environment、reward。强化学习的基本模型如下：

environment交给actor一个observation，即s；actor得到s向量以后给出动作action，即a；a、s输入reward模型，得到分数r，通过分数来衡量优势函数A的取值（上述例子直接用奖励r定义优势函数）；损失函数通过交叉熵和A共同定义，通过减小损失函数，优化actor的参数

而实际上，每一个动作a会直接影响到后续的s和a，因此a之间并不是相互独立的。另外一个问题是，如果简单的用r来作为A的数值，会有一个问题，就是只有在做固定的action时A才会增加，这会导致actor只会选择固定的action，实际上的RL对A的定义有多种方法。

一种定义优势函数的方法是把动作a之后所有动作获得的r累计起来，作为该动作的优势函数。

优势函数，使用此优势函数将会使actor的action选择更加多样化，而不是只采用reward为正的动作，从而更可能从全局视角考虑问题的最优解。

但是上述定义优势函数的方法有一个问题，那就是奖励的值似乎并不直接受到动作的影响，或者说受到其影响较小，更合适的一种优势函数设定的方法是

可能存在一种情况，即所有的action对应的A都是大于零的，这样actor将会认为所有的action都是好的，这显然不对；所以还需要对A进行标准化。最简单的标准化方法是直接减去一个baseline，即,就是baseline，人为设定。

接下来介绍上述思想的程序逻辑：
1.actor是一个神经网络模型，首先需要初始化actor的参数

2.actor初始化之后，用其跟environment进行互动，得到一系列的对

3.计算优势函数，用于评价对的得分

4.定义损失函数，如交叉熵

5.用优化器结合损失函数更新actor参数

这里有一个重要问题，actor在训练过程中所使用的训练集使它自己和环境交互产生的，这是RL显著区别于传统的监督学习的地方。

上述例子中，actor每和environment互动一次，产生一组{s，a}，然后再计算价值函数A，接着计算出损失函数，更新actor的参数；在下一个循环中，actor已经是新的actor了，其和environment互动将产生新的{s，a}，然后循环此过程。这意味着actor每次用来的训练的数据都是它自己产生的。这种训练用自己产生的数据训练自己的方法叫做on-policy。这种方法的局限在于收集资料的过程太过于漫长，而不能像监督学习一样直接使用现成的数据集。

对应的，自然有actor依赖别的actor所产生的数据进行训练的方法，叫做off-policy。一种经典的off-policy算法就是之前提到过的PPO(近端策略优化)。

在训练过程中，为了使得模型泛化能力更强，需要给actor增加一定的随机性，如在actor的参数上加一些noise或者扩大actor输出的交叉熵

基于UWB定位的安全帽人员定位系统：技术架构和核心功能详解

hello~这里是维构lbs智能定位，如果有项目需求和技术交流欢迎来私信我们~点击文章最下方可获取免费获取技术文档。安全帽是多种定位终端的设备之一，而安全帽人员定位系统是融合定位终端、无线通信技术与后台管理平台的智能化系统，将定位模块集…

李华

企业年底12项必做

1、关于借款尤其是法人、股东的借款，如果年度终了既不归还又未用于经营，该借款可视为“股息、红利”按照20%缴纳个税。2、核对往来账尤其是长期大额挂账，要提前整理清单，提前催促清账。3、预收款还是无票收入有一部分收入是购买方…

李华

【值得收藏】网络安全渗透测试四大靶场详解：构建从基础到实战的完整学习路径

在网络安全领域，“合法实战” 是技术成长的核心前提。未经授权的测试行为可能违反《网络安全法》，面临行政处罚甚至刑事责任。而专业靶场作为模拟真实环境的合法训练平台，能帮助学习者在安全边界内积累漏洞挖掘、渗透测试经验，是零…

李华

AgentRun Sandbox SDK 正式开源！集成 LangChain 等主流框架，一键开启智能体沙箱新体验

作者：靖苏让智能体开发更轻盈，让云端运行更安全——AgentRun Sandbox SDK 开源发布，赋能 Agentic AI 快速落地。引言：构建面向未来的 Agentic AI 基础设施在大模型与智能体（Agent）技术迅猛发展的今天&…

李华

12、深入理解 IP 伪装与网络地址转换

深入理解 IP 伪装与网络地址转换 1. 网络现状与问题曾经，只有大型组织才有能力通过局域网将多台计算机连接在一起。但如今，网络技术成本大幅下降，带来了两个变化。一方面，局域网变得十分普遍，甚至在许多家庭环境中也能见到，很多 Linux 用户会用以太网连接两台或更多计…

李华

从哨兵到快慢指针：深入剖析「删除链表倒数第 N 个节点」的完整技术演进

引言力扣第 19 题：给你一个链表，删除链表的倒数第 n 个结点，并且返回链表的头结点。这道题看似简单，却像一颗洋葱——剥开一层，还有一层。它背后隐藏着链表操作中三大核心技巧的精妙融合：dummy 哨兵节点、…

李华