强化学习学习笔记（二）贝尔曼方程

策略评估的方式

如何不断的改进策略？用什么来评估：答案是基于return进行评估。 return是一条控制轨迹能够获得的奖励或折扣奖励的和，能够用来评估当前状态的价值。

状态的价值

举个例子，在Grid机器人里，现在有3条路径：强化学习的路径路径1：智能体从S1到S3，奖励是0，从S3到S4，奖励是1，呆在S4，一直有奖励1. 路径2：智能体从S1到S2，奖励是-1，从S2到S4，奖励是1，呆在S4，一直有奖励1. 路径3：智能体有50%概率走S1到S3，从S3到S4；有50%概率走S1到S2到S4。最后呆在S4，一直有奖励1.

路径1的总回报： 0 + γ × 1 + γ² × 1 + γ³ × 1 + ..... = γ/(1 − γ) 路径2的总回报： γ/(1 − γ) − 1 路径3的总回报： 0.5 × [γ/(1 − γ) − 1] + 0.5 × γ/(1 − γ) 这里是按照概率进行加权，等价于求期望这里γ是折扣因子。可见 return₁＞return₃＞return₂ 说明路径1的策略是最优的，路径2的策略是最烂的，然后路径3的策略介于二者中间。这里案例说明了策略的评估的重要性。接下来问题来了，考虑一个循环的格子，如何计算格子里每个状态的return？如何计算return 根据定义来，定义v₁是从状态s₁出发能够得到的return，从而有： $$ v_1=r_1+γr_2+γ²r_3+...\\ v_2=r_2+γr_3+γ²r_4+...\\ v_3=r_3+γr_4+γ²r_1+...\\ v_4=r_4+γr_1+γ²r_2+...\\ $$ 可以看到，要v1是无穷无尽可以计算下去的，因为在这个例子中状态会出现往复。我们同时会发现上面的式子可以写成下面的形式，这就是启发我们：一个状态和另一个状态之间，是存在互相影响的，可以通过联立不同的状态的价值，把不同状态下对应的价值求解出来，这种特性叫做 “自举策略（bootstrap）” $$ v_1=r_1+γv_2\\ v_2=r_2+γv_3\\ v_3=r_3+γv_4\\ v_4=r_4+γv_1\\ $$

我们可以把上面的式子转化为矩阵形式表达，也就是下面这张图所要展示的，并且从中抽取出共性的公式： v = r + γPv 这就是bellman公式。其中P是状态转移的概率矩阵。贝尔曼状态转移矩阵贝尔曼公式的内涵在于告诉我们：一个状态的价值依赖于其他的状态。我们依据贝尔曼方程，可以定义出价值函数，即： V_π(s) = E[G_t|S_t = s] = E[R_t|S_t] + γ∑E[G_t + 1|S_t] 这里的G_t就是前面所说的折扣奖励的和，所以价值函数就表示在当前状态下能够获得的期望折扣回报和。状态函数如何计算呢，我们为了在一般情况下计算，需要将上面的式子展开，并且用全概率公式算期望。

为什么要求解state value：给定一个策略，求解这个策略对应的状态价值，这个过程叫做策略评估（policy evaluation）贝尔曼公式的向量形式，由上面的公式可知，贝尔曼公式的一般向量形式可以写成： v_π = r_π + γP_πv_π 这里的核心是用r和P来分别代表奖励模型和状态转移概率模型。其中v和r是向量，即v_π = [v₁，v₂, v₃, ..., v_n]都是向量化的表达，P是矩阵，用来描述每个状态转移的概率。求解上述式子，最直观的方式是求逆，即：

v_π = (I − γP_π)⁻¹r_π

但是这种方式，要求矩阵的逆，效率非常低。。求逆的方式获得贝尔曼方程的解解决的方式是用迭代的方法避免矩阵求逆，也就是让vk先从V0开始，迭代得到V1，或者其他的状态，然后再举一反三得到其他状态，最终由策略迭代的方式，使得vk收敛到vπ

动作的价值动作的价值指的是智能体在某个状态下，执行某个动作的价值，这和智能体的策略密切相关。动作的价值定义如下

q_π(s, a) = E[G_t|S_t = s, A_t = a]

由全概率公式，我们可以得知：

v_π(s) = ∑_aπ(a|s)E[G_t|S_t = s, A_t = a]

从而可以得到v和q值之间的关系，也就是全概率公式表示的一个公式。

v_π(s) = ∑_aπ(a|s)q_π(s, a)

强化学习

强化学习学习笔记（二）贝尔曼方程

https://runsstudio.github.io/2026/01/04/强化学习学习笔记（二）贝尔曼方程/

发布于

2026年1月4日

许可协议

强化学习学习笔记（一）基础概念上一篇

Python导包失败原因及解决方法下一篇