news 2026/5/6 3:25:37

强化学习蒙特卡洛策略迭代方法求最优策略的代码实现(二)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
强化学习蒙特卡洛策略迭代方法求最优策略的代码实现(二)

这里直接融合了first visit和every visit,当选择every visit,策略更新使用stochastic的epsilon greedy;选择first visit,策略更新使用greedy。

理论基础:

需要说明:

1. 由于我发现agent大多数时候更倾向于呆在原地,因为走到终点的reward太小,而走到forbidden或者boundary的reward又是很大的负数,因此呆在原地是长远考虑。因此我增加了r_stay,当模型决定留在原地就给一定的惩罚。在env.py中添加即可。同时注意测试时r_boundary和r_forbidden不应该设置的太小。

2. 在env.py的step方法中需要调整,可以允许agent进入forbidden区域。

if not (0 <= ni < self.size and 0 <= nj < self.size): next_state = self.state_id(i,j) else: next_state = self.state_id(ni,nj)
from collections import defaultdict import numpy as np from env import GridWorldEnv from utils import drow_policy class MonteCarloPolicyIteration(object): def __init__(self, env: GridWorldEnv, gamma=0.9, samples=1, mode="first visit"): self.env = env self.action_space_size = self.env.num_actions # 上下左右原地 self.reward_space_size = self.env.reward_space_size # 执行每个动作的reward self.state_space_size = self.env.num_states self.reward_list = self.env.reward_list self.gamma = gamma self.samples = samples self.mode = mode self.policy = np.ones((self.state_space_size, self.action_space_size)) / self.action_space_size self.state_value = np.zeros((self.env.size, self.env.size)) self.qvalues = np.zeros((self.state_space_size, self.action_space_size)) self.returns = np.zeros((self.state_space_size, self.action_space_size)) # 必须初始化为0,不是zeros_like self.nums = np.zeros((self.state_space_size, self.action_space_size)) def solve(self, iterations=20, epsilon=0.1): ''' :param iterations: 迭代的次数 :param epsilon: epsilon greedy:[0,1] epsilon=0:greedy,就选择best action;epsilon=1:stochastic,选择所有action的概率相同 ''' for i in range(iterations): for _ in range(self.samples): # 随机选择一个非终点状态作为起始状态,确保所有的状态都能被充分访问 non_terminal_states = [i for i in range(self.state_space_size) if i not in self.env.terminal] s = np.random.choice(non_terminal_states) a = np.random.choice(self.action_space_size, p=self.policy[s]) # 按policy采样 episode = self.generate_episodes(s, a) self.update_q_from_episode(episode) for s in range(self.state_space_size): if s in self.env.terminal: self.policy[s] = np.eye(self.action_space_size)[4] else: best_a = np.argmax(self.qvalues[s]) if self.mode=="every visit": # 如果是first visit,很多(s,t)可能被访问了很多次,但是却只用它做了一次action value的估计 # epsilon greedy self.policy[s] = epsilon / self.action_space_size # 给其他action小概率 self.policy[s, best_a] += 1 - epsilon # 给最有可能的action大概率 elif self.mode=="first visit": # 实际对应epsilon=0的情况 self.policy[s]=np.eye(self.action_space_size)[best_a] self.state_value = np.sum(self.policy * self.qvalues, axis=1).reshape(self.env.size, self.env.size) def generate_episodes(self, start_state, start_action, max_steps=200): ''' :param start_state: 当前状态的state_id :param start_action: 当前动作 :return: [(state_id, action,reward),(...)] ''' episode = [] state = start_state action = start_action for _ in range(max_steps): next_state, reward, done = self.env.step(state, action) episode.append((state, action, reward)) if done: break state = next_state action = np.random.choice(self.action_space_size, p=self.policy[state]) # 从[0,action_space_size)随机选一个,每个action的概率为policy[state] return episode def update_q_from_episode(self, episode): G = 0 visit = set() for s, a, r in reversed(episode): # 如果直接使用reversed(episode)就会同时把tuple内部也反转了 G = r + self.gamma * G if self.mode == "first visit": if (s, a) not in visit: self.returns[s, a] += G self.nums[s, a] += 1 self.qvalues[s, a] = self.returns[s, a] / self.nums[s, a] elif self.mode == "every visit": self.returns[s, a] += G self.nums[s, a] += 1 self.qvalues[s, a] = self.returns[s, a] / self.nums[s, a] else: raise Exception("Invalid mode") if __name__ == '__main__': env = GridWorldEnv( size=5, forbidden=[(1, 2),(3,3)], terminal=[(4,4)], r_boundary=-1, r_other=-0.04, r_terminal=1, r_forbidden=-1, r_stay=-0.1 ) vi = MonteCarloPolicyIteration(env=env, gamma=0.9, samples=10, mode="every visit") vi.solve(iterations=10000, epsilon=0.3) # 只有mode="every visit"才需要传入epsilon print("\n state value: ") print(vi.state_value) drow_policy(vi.policy, env)

对于相同的配置,iteration=100、1000、10000时,策略分别是

可以发现,iteration越大,策略越优。

由于stochastic,因此相同的配置运行多次结果也很大概率不同,大多数时候agent在进行一些exploration,因此看起来策略并不是最好的。因此epsilon greedy实际上是牺牲了最优性,换取了更多的exploration,epsilon越小,越接近最优greedy,epsilon越大,跑的时间也越长。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 12:11:12

探索重型车辆通信的钥匙:SAE J1939协议完整双语文档集

探索重型车辆通信的钥匙&#xff1a;SAE J1939协议完整双语文档集 【免费下载链接】SAEJ1939协议文档库完整版双语对照 SAE J1939协议文档库&#xff08;完整版&#xff0c;双语对照&#xff09;欢迎来到SAE J1939协议的综合资源库&#xff01;本仓库致力于为汽车电子、车联网领…

作者头像 李华
网站建设 2026/5/5 18:27:59

【医学图像算法手册003】深度学习骨干网络回顾

【医学图像算法手册003】深度学习骨干网络回顾 深度学习骨干网络(Backbone)是医学图像算法的核心组件,用于从 CT\text{CT}CT、MRI\text{MRI}MRI、X-ray\text{X-ray}X-ray 或超声图像中提取结构化特征。后续的分割、检测、配准、超分辨等所有任务,都依赖骨干网络的特征表达…

作者头像 李华
网站建设 2026/5/5 23:25:24

零基础转行网络安全?一份为你量身定制的学习路线与发展规划

最近有同学在后台留言&#xff0c;0基础怎么学网络安全&#xff1f;0基础可以转行做网络安全吗&#xff1f;以前也碰到过类似的问题&#xff0c;想了想&#xff0c;今天简单写一下。 我的回答是先了解&#xff0c;再入行。 具体怎么做呢&#xff1f; 首先&#xff0c;你要确…

作者头像 李华
网站建设 2026/5/3 9:15:12

终极指南:免费解锁B站4K高清视频的完整解决方案

你是否曾经因为网络不稳定错过精彩的B站视频&#xff1f;或者想要永久保存那些值得反复观看的教学内容&#xff1f;bilibili-downloader作为一款持续更新的开源下载工具&#xff0c;为你提供了一站式的视频保存解决方案&#xff0c;支持大会员专属的4K超清画质&#xff0c;让珍…

作者头像 李华
网站建设 2026/5/3 9:33:39

UI-TARS-desktop终极操作手册:从零基础到高效自动化

UI-TARS-desktop终极操作手册&#xff1a;从零基础到高效自动化 【免费下载链接】UI-TARS-desktop A GUI Agent application based on UI-TARS(Vision-Lanuage Model) that allows you to control your computer using natural language. 项目地址: https://gitcode.com/GitH…

作者头像 李华
网站建设 2026/4/29 7:17:57

Playground v2.5 AI绘画:从新手到艺术家的完整创作指南

Playground v2.5 AI绘画&#xff1a;从新手到艺术家的完整创作指南 【免费下载链接】playground-v2.5-1024px-aesthetic 项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/playground-v2.5-1024px-aesthetic 想要用AI创作出令人惊叹的艺术作品&#xff1f;Play…

作者头像 李华