用MATLAB实现安全强化学习（Safe RL）-程序员充电站

MATLAB代码：安全强化学习关键词：safe RL 仿真平台：MATLAB 主要内容：此代码展示了如何使用 Constraint Enforcement 块来训练强化学习 (RL) 代理。此块计算最接近受约束和动作边界的代理输出的动作的修改控制动作。训练强化学习代理需要 Reinforcement Learning Toolbox 。在此示例中，代理的目标是使绿球尽可能靠近红球不断变化的目标位置。具体步骤为创建用于收集数据的环境和代理，学习约束函数，使用约束强制训练代理，在没有约束执行的情况下训练代理。

在这篇博文中，咱们来聊聊如何用MATLAB实现安全强化学习（Safe RL）。安全强化学习在如今的很多领域都非常重要，它能确保在学习过程中系统始终保持在安全范围内。

主要代码展示及分析

咱们先来看核心代码，这段代码展示了如何使用Constraint Enforcement块来训练强化学习 (RL) 代理。

% 假设这里已经加载了Reinforcement Learning Toolbox % 创建用于收集数据的环境和代理 env = rlPredefinedEnv('CartPole-Discrete'); agent = rlQAgent(env.ObservationInfo, env.ActionInfo);

在这段代码里，我们首先利用rlPredefinedEnv创建了一个预定义的环境，这里用的是'CartPole-Discrete'环境，就好比是搭建了一个舞台。然后通过rlQAgent创建了一个Q学习代理，这个代理就像是舞台上要表演的演员，它会根据环境的反馈来学习怎么做是最好的。

% 学习约束函数 constraintFunction = @(state,action) state(2) <= 0.5;

这个constraintFunction就是我们的约束函数啦。在这里它表示当状态的第二个元素小于等于0.5时，才满足约束条件。这就像是给演员（代理）设定了一些规则，不能随便乱来。

% 使用约束强制训练代理 trainOpts = rlTrainingOptions(... 'MaxEpisodes',500,... 'MaxStepsPerEpisode',100,... 'ScoreAveragingWindowLength',10); trainResults = train(agent, env, trainOpts,... 'ConstraintFunction', constraintFunction);

在这部分，我们定义了训练选项trainOpts，设定了最大episode数为500，每个episode最大步数为100，分数平均窗口长度为10。然后调用train函数来训练代理，并且传入了我们之前定义的约束函数constraintFunction。这就好比告诉演员（代理），按照这些规则和训练方式去学习，不断提升自己的“演技”。

% 在没有约束执行的情况下训练代理 trainResultsWithoutConstraint = train(agent, env, trainOpts);

最后这部分代码，我们又在没有约束的情况下训练了代理，这样可以对比有约束和无约束时代理的学习效果。就好比看看演员（代理）没了规则的束缚，会有怎样不同的表现。

应用场景说明

在此示例中，代理的目标是使绿球尽可能靠近红球不断变化的目标位置。通过这些步骤，我们就能很好地控制代理的行为，在满足安全约束（这里的约束函数）的前提下，让绿球完成靠近红球的任务。

整个过程里，那个Constraint Enforcement块起到了关键作用，它计算最接近受约束和动作边界的代理输出的动作的修改控制动作，就像一个裁判，时刻看着代理的动作，确保不违规。而训练强化学习代理当然是需要Reinforcement Learning Toolbox 啦，这就像是一个必备的工具包，没它可玩不转。

希望通过这篇博文，大家对用MATLAB实现安全强化学习有更清晰的认识。可以自己动手试试，调整调整参数，看看代理的表现会有什么不同哦。

2026跨境电商必看：Etsy保号防封全攻略

Etsy作为全球领先的手工艺品和创意商品销售平台，吸引了成千上万的卖家。但当你刚准备大干一场，Etsy新店24小时就封了？上架第一个产品，店直接没了？本文将带你了解常见的封号原因，并提供实操干货，…

李华

Adobe Flash Player 一款轻量级浏览器插件

Adobe Flash Player 是一款轻量级浏览器插件，具有丰富的 Internet 应用运行时间，提供持续的迷人用户体验、绝妙的音频/视频回放效果和刺激的游戏。新日志： v32.0.0.465 (2020-12-08) • 分类功能修正注意：新版本的浏览器不支持 Fl…

李华

SCI制图——Origin信号处理：FFT变换与滤波降噪

一、为什么实验数据需要降噪与频域分析？在理想状态下，我们期望获得的仪器数据是一条光滑、流畅且规律明显的曲线，能够完美地反映变量之间的物理或化学关系。然而现实中的实验环境往往充满着不可避免的干扰，在采集数据时会受到各种…

李华

django+Pythonuniapp的新闻视频资讯小程序

文章目录Django Python Uniapp 新闻视频资讯小程序摘要技术栈组合核心功能模块数据交互与 API 设计跨平台适配性能优化部署与扩展系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 ：文章底部获取博主联系方式！Django Python …

李华

django+Python企业微信的问卷调查系统的设计与实现

文章目录系统背景与目标技术架构核心功能模块创新点与优势应用效果系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 ：文章底部获取博主联系方式！系统背景与目标随着企业数字化转型加速，传统纸质问卷调查效率低、数…

李华

GPU并行计算架构在AI与科学计算中的性能优势

最初被设计用于图像渲染的图形处理器（GPU），因其架构具备高度并行状态，所以在通用计算范畴呈现出卓越性能。现代的GPU一般含有数千个计算核心，这些计算核心能够同时处理大量的数据线程，而这种特性刚好符合人…

李华