无限期强化学习中的策略迭代与性能分析
1. 有限前瞻性能边界
在强化学习中,有限前瞻(Limited Lookahead)是一种重要的策略优化方法。我们主要考虑 $\ell$ 步前瞻的性能边界。
当 $\hat{\mu}0, \ldots, \hat{\mu}{\ell - 1}$ 使得以下 $\ell$ 步前瞻最小化问题达到最小值时:
[
\min_{\mu_0, \ldots, \mu_{\ell - 1}} E\left(\sum_{k = 0}^{\ell - 1} \alpha^k g(i_k, \mu_k(i_k), j_k) + \alpha^{\ell} \tilde{J}(i_{\ell})\right)
]
我们将次优策略 $\tilde{\mu} = \hat{\mu}0$ 称为对应于 $\tilde{J}$ 的 $\ell$ 步前瞻策略。用动态规划(DP)算子 $T$ 和 $T{\tilde{\mu}}$ 表示,$\ell$ 步前瞻策略 $\tilde{\mu}$ 可定义为 $T_{\tilde{\mu}}(T^{\ell - 1} \tilde{J}) = T^{\ell} \tilde{J}$。
下面的命题给出了关于 $\tilde{\mu}$ 性能的边界:
-命题 4.6.1(有限前瞻性能边界):
-(a)设 $\tilde{\mu}$ 是对应于 $\tilde{J}$ 的 $\ell$ 步前瞻策略,则有
[
|\tilde{J}