在机器学习的三大核心范式中,强化学习(Reinforcement Learning, RL)以其独特的“试错学习”机制脱颖而出——它既不像监督学习那样依赖标注数据,也不同于无监督学习专注于数据分布挖掘,而是通过智能体(Agent)与环境(Environment)的持续交互,在“探索-利用”的平衡中寻找最优决策策略。
这种学习模式与人类和动物的学习过程高度相似,使其成为实现自主决策、智能控制的核心技术,在自动驾驶、机器人控制、游戏AI等领域展现出巨大价值。本章将从强化学习的基本概念切入,以马尔可夫决策过程(Markov Decision Process, MDP)为理论框架,系统讲解强化学习的经典算法,为后续深入复杂场景奠定基础。
4.3 强化学习基础:马尔可夫决策过程与经典算法
强化学习的核心目标是:让智能体在动态环境中通过执行动作获得奖励信号,不断调整自身的行为策略,最终实现长期累积奖励的最大化。与监督学习中“样本-标签”的静态学习模式不同,强化学习具有极强的动态性和交互性,其学习过程涉及“状态感知-动作决策-奖励反馈-策略更新”的闭环。要理解这一闭环的数学逻辑,首先需要明确强化学习的核心要素,进而掌握其理论基石——马尔可夫决策过程,最后通过经典算法理解策略优化的具体实现。
4.3.1 强化学习核心要素解析
在强化学习的标准模型中,所有交互过程都可以通过“智能体-环境”的交互框架来描述,其中包含五个核心要素:状态(State)、动作(Action)、奖励(Reward)、策略(Policy)和价值函数(Value Function)。这五个要素共同构成了强化学习的基本骨架,理解它们之间的关系是掌握后续内容的关键。
1. 状态(State):环境与智能体的快照
状态是对强化学习系统中“当前情况”的完整描述,它包含了智能体做出决策所需要的所有信息。从数学角度看,状态可以表示为一个向量或集合,记为$s \in S$,其中$S$称为状态空间(State Space)——即所有可能状态的集合。根据状态空间的特性,可分为离散状态空间(如围棋的棋盘状态,有限且可枚举)和连续状态空间(如自动驾驶中车辆的位置、速度,无限且不可枚举),这两种状态空间对应的强化学习算法设计存在显著差异。
需要注意的是,状态的“完整性”是相对的。在实际场景中,我们往往无法获取环境的全部信息,此时智能体基于“部分可观测信息”做出决策,这种场景对应的是部分可观测马尔可夫决策过程(POMDP),而标准强化学习问题通常基于“完全可观测”假设,即智能体能够准确获取当前的完整状态。例如,在Atari游戏中,智能体的状态可以是当前游戏画面的像素矩阵,这一状态完整包含了决策所需的所有信息(如敌人位置、自身血量等)。
2. 动作(Action):智能体的决策输出
动作是智能体在特定状态下做出的决策,记为$a \in A$,其中$A$称为动作空间(Action Space)。与状态空间类似,动作空间也分为离散型(如围棋的落子位置,有限个可选动作)和连续型(如机械臂的关节角度,无限个可选动作)。动作的选择直接影响环境的变化——智能体执行动作后,环境会从当前状态转移到下一个状态,同时产生相应的奖励。
动作与状态的关联性是强化学习的重要特征。在某些场景中,动作空间是固定的(如Atari游戏中固定的操作按键);而在另一些场景中,动作空间会随状态变化(如机器人在狭窄通道中可执行的动作范围小于开阔空间)。这种关联性使得动作的选择必须依赖于当前状态,这也是“状态-动作”对成为强化学习核心研究对象的原因。
3. 奖励(Reward):学习的“指挥棒”
奖励是环境对智能体所执行动作的即时反馈信号,记为$r \in R$,其中$R$为奖励空间。奖励的设计直接决定了智能体的学习目标——智能体的核心任务就是最大化“长期累积奖励”,而非单一时刻的即时奖励。因此,奖励信号需要能够准确反映“目标导向”的行为:符合目标的动作应获得正奖励,违背目标的动作应获得负奖励,无关动作则可能获得零奖励。
奖励设计是强化学习落地的关键难点之一。例如,在自动驾驶场景中,若仅将“行驶速度”作为奖励信号,智能体可能会为了追求高速度而忽视交通规则;若仅将“不碰撞”作为奖励,智能体可能会选择原地不动以避免风险。因此,实际应用中需要设计多维度的奖励函数,平衡安全性、效率性等多个目标。此外,奖励信号往往具有延迟性,例如在围棋游戏中,只有到终局才能确定胜负(最终奖励),而中间的每一步落子都需要基于“未来奖励的预期”做出决策,这就需要引入“价值”的概念。
4. 策略(Policy):智能体的“行为准则”
策略是智能体从状态到动作的映射关系,记为$\pi(a|s)$,表示在状态$s$下选择动作$a$的概率分布(随机策略)或确定的动作(确定性策略)。策略是强化学习的核心输出——强化学习的过程本质上就是“策略优化”的过程,即通过与环境的交互不断调整策略,使长期累积奖励最大化。
策略可分为两类:一类是确定性策略$\pi(s) = a$,表示在状态$s$下必然选择动作$a$;另一类是随机策略$\pi(a|s) = P(A=a|S=s)$,表示在状态$s$下以一定概率选择不同的动作。随机策略在强化学习中更为常用,因为它能为智能体提供“探索”的能力——通过尝试不同的动作,智能体可以发现更优的决策路径,避免陷入局部最优。例如,在迷宫游戏中,确定性策略可能会让智能体一直重复走某条死路,而随机策略则有机会探索到新的通道。
5. 价值函数(Value Function):未来奖励的“预期计算器”
价值函数用于量化“状态的价值”或“状态-动作对的价值”,其核心是对“未来累积奖励的数学期望”的计算。由于奖励具有延迟性,智能体需要通过价值函数判断当前状态或动作对未来奖励的贡献,从而做出更合理的决策。价值函数分为状态价值函数和动作价值函数两类,二者共同构成了强化学习的“价值评估体系”。
状态价值函数$V^\pi(s)$表示在遵循策略$\pi$的前提下,从状态$s$出发所能获得的长期累积奖励的数学期望。其数学定义为:$V^\pi(s) = \mathbb{E}_\pi\left[ G_t | S_t = s \right]$,其中$G_t$表示从时刻$t$开始的长期累积奖励,即$G_t = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \dots = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$。式中的$\gamma$称为折扣因子(Discount Factor),取值范围为$[0,1]$,用于平衡即时奖励和未来奖励的权重——$\gamma$越接近1,智能体越重视未来奖励;$\gamma$越接近0,智能体越重视即时奖励。
动作价值函数$Q^\pi(s,a)$(也称为Q函数)表示在遵循策略$\pi$的前提下,从状态$s$出发执行动作$a$后,所能获得的长期累积奖励的数学期望。其定义为:$Q^\pi(s,a) = \mathbb{E}_\pi\left[ G_t | S_t = s, A_t = a \right]$。与状态价值函数相比,Q函数更直接地指导动作选择——在某个状态下,智能体只需选择Q值最大的动作即可获得最优的长期奖励,这也是Q-Learning等经典算法的核心思想。
4.3.2 强化学习的理论基石:马尔可夫决策过程(MDP)
在明确了强化学习的核心要素后,我们需要一个严谨的数学框架来描述智能体与环境的交互过程,马尔可夫决策过程(MDP)正是这样的框架。MDP基于“马尔可夫性”这一核心假设,将强化学习的交互过程建模为一个动态系统,为策略优化提供了坚实的理论基础。无论是经典的动态规划算法,还是后续的时序差分学习,都以MDP的数学性质为出发点。
1. 马尔可夫性:简化问题的核心假设