news 2026/4/18 7:31:48

【强化学习实验】- 策略梯度算法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【强化学习实验】- 策略梯度算法

1.实验内容

策略梯度算法文章中2.2 策略梯度算法。

通俗总结

① 优胜劣汰

② 学如逆水行舟,不进则退。

2.实验目标

2.1 构建策略模型

class PolicyNet(torch.nn.Module): def __init__(self, state_dim, hidden_dim, action_dim): super(PolicyNet, self).__init__() self.fc1 = torch.nn.Linear(state_dim, hidden_dim) self.fc2 = torch.nn.Linear(hidden_dim, action_dim) # 输入就是state, 输出就是一个action分布 def forward(self, x): x = F.relu(self.fc1(x)) x = self.fc2(x) return F.softmax(x, dim=1)

2.2 目标函数 及其 loss函数

loss = -微分对象=-Q*log概率

def update(self, transition_dict): state_list = transition_dict['states'] action_list = transition_dict['actions'] reward_list = transition_dict['rewards'] # 每个episode为单位, 计算动作价值的累计收益 G = 0 # 倒放数据,计算动作的累计收益 self.optimizer.zero_grad() for i in range(len(reward_list)-1, -1, -1): state = torch.tensor([state_list[i]]).to(self.device) action = torch.tensor([action_list[i]]).view(-1, 1).to(self.device) G = reward_list[i] + self.gamma*G logP = torch.log(self.policy_net(state).gather(1, action)) loss = -G*logP loss.backward() self.optimizer.step()

2.3 思考算法的优缺点

a、仅使用sar数据,可能会限制算法的能力上线

b、无偏,但是方差比较大

3.完整代码

见附件

4.实验结果

模型训练750个epoch接近收敛,而后震荡收敛。

尝试扩大epoch,效果如下:

结论:总的来说,可以收敛,但是收敛效果并不是很好,后续和AC算法做一下对比。

有没有小伙伴知道为啥后期收敛效果不好?欢迎评论指教。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 6:57:36

Ollama模型格式转换为LLama-Factory兼容格式的全过程演示

Ollama模型格式转换为LLama-Factory兼容格式的全过程演示 在大模型落地实践中,一个常见的困境浮出水面:你在本地用 Ollama 快速验证了一个基于 Llama3 的智能客服原型,效果不错,团队也认可。但当你想把它拿回实验室做进一步微调、…

作者头像 李华
网站建设 2026/4/18 5:31:38

番茄小说下载器终极指南:5分钟打造个人离线图书馆

番茄小说下载器是一款功能强大的开源工具,专为需要离线阅读番茄小说内容的用户设计。通过智能下载技术和多格式支持,帮助用户建立专属的私人书库,实现真正的阅读自由。无论身处网络不稳定的环境,还是需要长期保存珍贵作品&#xf…

作者头像 李华
网站建设 2026/4/18 5:31:50

微信小程序表格组件终极实战指南:从零到精通的完整教程

还在为微信小程序中的数据展示而烦恼吗?miniprogram-table-component这个开源表格组件让你在3分钟内搭建出专业级的数据表格。无论你是小程序开发新手还是经验丰富的开发者,这篇指南都将带你快速掌握这个组件的核心功能和应用技巧。 【免费下载链接】min…

作者头像 李华
网站建设 2026/4/17 16:20:22

为什么选择Wan2.2-T2V-5B?50亿参数模型的极致速度与成本平衡

为什么选择Wan2.2-T2V-5B?50亿参数模型的极致速度与成本平衡 在短视频内容爆炸式增长的今天,创作者和企业每天都面临一个现实问题:如何用最低的成本、最快的速度生成足够多的视频素材?传统视频制作依赖专业团队、拍摄设备和后期剪…

作者头像 李华
网站建设 2026/4/18 4:02:06

11、Z变换与差分方程求解全解析

Z变换与差分方程求解全解析 1. Z变换基础与实例 1.1 Z变换定义与基本求解 Z变换是分析离散时间信号和系统的重要工具。考虑一个差分方程 (x(n + 2)−3x(n + 1) + 2x(n) = u(n)),假设所有初始条件为零。对该方程两边取Z变换,得到 (X(z) [z^2 −3z + 2] = \frac{z}{z - 1})。…

作者头像 李华