Run's Studio

强化学习笔记（九）策略函数近似

强化学习笔记（九）策略函数近似策略函数近似是强化学习中一种重要的方法，用于解决状态空间和动作空间过大或连续的问题。通过函数近似，我们可以用参数化模型来表示策略，从而避免直接存储所有状态和动作的概率分布。策略函数的输入是状态，输出是动作的概率分布。常见的近似方法包括线性函数近似、神经网络近似和核方法。其中，神经网络近似最为常用，称为策略网络（Policy Network），记为 π(a|s

2026-03-17

强化学习

强化学习笔记（八）值函数近似

强化学习笔记（八）：值函数近似在实际场景中，我们的状态空间是非常大的，如果我们使用之前的建立一个个表格的方法，他的数据规模也会非常大，这显然不是一个很现实的解决方案。我们希望提出一种新的value function，他可以近似等于真正的value function，但是我们不再需要为每一个state建立一个映射，也就是一种和函数拟合思路类似的方法。在这一章，也是首次将神经网络引入强化学习。

2026-02-25

强化学习

强化学习笔记（七）时序差分方法

时序差分算法概述时序差分（Temporal-Difference, TD）方法是强化学习中最核心的无模型学习技术之一，它结合了蒙特卡洛方法的采样能力与动态规划的自举思想，能够在无需环境模型的情况下进行在线、增量式更新。核心思想是利用当前状态的价值估计与下一状态的价值估计之间的差异（TD误差）来更新价值函数。包括状态值的td学习、动作值的td学习、最优动作值估计的TD学习时序差分算法的

2026-02-09

强化学习

强化学习笔记（六）随机近似理论与随机梯度下降方法

动机回顾一下期望的定义，为什么我们要计算期望？是为了取平均。为什么要计算期望？因为强化学习的本质就是求期望，求状态下能够获得的回报的期望、动作获得的未来回报的期望求期望有两种方式： ①全量求期望，收集所有的样本然后求平均 ②增量的方式求期望。增量的方式求期望，如图所示，是可以通过推导，得到wk + 1和wk之间的关系的。通过迭代最下面的式子可以实现来一个新增数据得一个期望

2026-01-28

强化学习

强化学习笔记（五）蒙特卡洛算法

强化学习笔记（五）蒙特卡洛算法第四章描述的值迭代算法和策略迭代算法都是model-based的算法。从这一章开始，我们引入蒙特卡洛学习，这是一种不需要模型的算法。也正是对应了强化学习的话：没有模型就得有数据，没有数据就得有模型。蒙特卡洛方法来源于数学中的统计方法，比如说抛硬币问题，算抛硬币中正面的概率，用model based的方法就是直接算期望，直接知道p正＝0.5，p反＝0.5。

2026-01-21

强化学习

强化学习笔记（四）值迭代和策略迭代

一、值迭代算法如何求解贝尔曼等式？在上一章中，已经知道了求解贝尔曼公式核心是求解一个f(v)=v的不动点问题，通过contraction mapping 定理可知，可以使用迭代的方式求解。贝尔曼公式中蕴含着π，π和v是绑定的。因此，需要通过两个步骤去求解。第一步【优化策略（policy update）】:是在给定vk的情况下求解πk+1 第二步【优化值（value upda

2026-01-21

强化学习

强化学习笔记（三）贝尔曼最优方程

1. 动机动作的价值对我们来说很重要，动作的价值是与当前自己要执行的动作的概率无关的，我们从grid model案例中可以得到：qπ(s, a) = r + γv(s′)，当前的动作是好与坏可以通过当前的动作的价值Q得到。那么很明显，当前最好的动作就是q值最大的动作，也就是a* = argmaxaqπ(s, a)。如果强化学习模型没有训练，策略是随机的，那么价值Q就不一定能够合理评估

2026-01-19

强化学习

轻松在Windows上配置并运行LLMLight项目

轻松在Windows上配置并运行LLMLight项目 1. Introduction 近年来，基于强化学习的信号控制逐步迭代，已经发展出了基于大语言模型的LLMLight。LLMLight是一种将大型语言模型（LLM）作为TSC决策代理的新框架。传统的TSC方法主要基于交通工程和强化学习（RL），在不同交通场景下的泛化能力通常有限，并且缺乏可解释性。该框架首先通过提供包含实时交通状况的知识性提

2026-01-05

操作系统

强化学习笔记（一）基础概念

强化学习笔记（一）基础概念本笔记是b站的西湖大学强化学习课程的笔记。并附带一些个人的思考。 # 一、基础概念强化学习各章节基础概念贝尔曼方程贝尔曼最优方程值迭代&策略迭代蒙特卡洛学习随机估计时序差分学习值函数估计策略梯度方法 Actor-Critic 方法章节关系章节1-3 强化学习的基础工具章节4-10 强化学习的算法

2026-01-04

强化学习

强化学习笔记（二）贝尔曼方程

策略评估的方式如何不断的改进策略？用什么来评估：答案是基于return进行评估。 return是一条控制轨迹能够获得的奖励或折扣奖励的和，能够用来评估当前状态的价值。状态的价值举个例子，在Grid机器人里，现在有3条路径：路径1：智能体从S1到S3，奖励是0，从S3到S4，奖励是1，呆在S4，一直有奖励1. 路径2：智能体从S1到S2，奖励是-1，从S2到S4，奖励是1，呆在

2026-01-04

强化学习