强化学习学习笔记(六)随机近似理论与随机梯度下降方法 动机 回顾一下期望的定义,为什么我们要计算期望?是为了取平均。 为什么要计算期望?因为强化学习的本质就是求期望,求状态下能够获得的回报的期望、动作获得的未来回报的期望 求期望有两种方式: ①全量求期望,收集所有的样本然后求平均 ②增量的方式求期望。 增量的方式求期望,如图所示,是可以通过推导,得到wk + 1和wk之间的关系的。通过迭代最下面的式子可以实现来一个新增数据得一个期望 2026-01-28 强化学习
强化学习学习笔记(五)蒙特卡洛算法 强化学习学习笔记(五)蒙特卡洛算法 第四章描述的值迭代算法和策略迭代算法都是model-based的算法。 从这一章开始,我们引入蒙特卡洛学习,这是一种不需要模型的算法。也正是对应了强化学习的话:没有模型就得有数据,没有数据就得有模型。 蒙特卡洛方法来源于数学中的统计方法,比如说抛硬币问题,算抛硬币中正面的概率,用model based的方法就是直接算期望,直接知道p正=0.5,p反=0.5 2026-01-21 强化学习
强化学习学习笔记(四)值迭代和策略迭代 一、值迭代算法 如何求解贝尔曼等式?在上一章中,已经知道了求解贝尔曼公式核心是求解一个f(v)=v的不动点问题,通过contraction mapping 定理可知,可以使用迭代的方式求解。 贝尔曼公式中蕴含着π,π和v是绑定的。因此,需要通过两个步骤去求解。 第一步【优化策略(policy update)】:是在给定vk的情况下求解πk+1 第二步【优化值(value upda 2026-01-21 强化学习
强化学习学习笔记(四)值迭代和策略迭代 一、值迭代算法 如何求解贝尔曼等式?在上一章中,已经知道了求解贝尔曼公式核心是求解一个f(v)=v的不动点问题,通过contraction mapping 定理可知,可以使用迭代的方式求解。 贝尔曼公式中蕴含着π,π和v是绑定的。因此,需要通过两个步骤去求解。 第一步【优化策略(policy update)】:是在给定vk的情况下求解πk+1 第二步【优化值(value updat 2026-01-21 强化学习
强化学习学习笔记(三)贝尔曼最优方程 1. 动机 动作的价值对我们来说很重要,动作的价值是与当前自己要执行的动作的概率无关的,我们从grid model案例中可以得到:qπ(s, a) = r + γv(s′),当前的动作是好与坏可以通过当前的动作的价值Q得到。 那么很明显,当前最好的动作就是q值最大的动作,也就是a* = argmaxaqπ(s, a)。 如果强化学习模型没有训练,策略是随机的,那么价值Q就不一定能够合理评估 2026-01-19 强化学习
轻松在Windows上配置并运行LLMLight项目 轻松在Windows上配置并运行LLMLight项目 1. Introduction 近年来,基于强化学习的信号控制逐步迭代,已经发展出了基于大语言模型的LLMLight。LLMLight是一种将大型语言模型(LLM)作为TSC决策代理的新框架。传统的TSC方法主要基于交通工程和强化学习(RL),在不同交通场景下的泛化能力通常有限,并且缺乏可解释性。该框架首先通过提供包含实时交通状况的知识性提 2026-01-05 操作系统
强化学习学习笔记(二)贝尔曼方程 策略评估的方式 如何不断的改进策略?用什么来评估:答案是基于return进行评估。 return是一条控制轨迹能够获得的奖励或折扣奖励的和,能够用来评估当前状态的价值。 状态的价值 举个例子,在Grid机器人里,现在有3条路径: 路径1:智能体从S1到S3,奖励是0,从S3到S4,奖励是1,呆在S4,一直有奖励1. 路径2:智能体从S1到S2,奖励是-1,从S2到S4,奖励是1,呆在 2026-01-04 强化学习
强化学习学习笔记(一)基础概念 强化学习学习笔记(一)基础概念 本笔记是b站的 西湖大学强化学习课程 的笔记。并附带一些个人的思考。 # 一、基础概念 强化学习各章节 基础概念 贝尔曼方程 贝尔曼最优方程 值迭代&策略迭代 蒙特卡洛学习 随机估计 时序差分学习 值函数估计 策略梯度方法 Actor-Critic 方法 章节关系 章节1-3 强化学习的基础工具 章节4-10 强化学习的 2026-01-04 强化学习
Python导包失败原因及解决方法 问题描述 Python在调试的时候提示: ImportError: attempted relative import with no known parent package 分析与解决方案 这种情况一般是使用了相对路径来引入包,例如 From .stdmae_arch import MaskedAutoencoderViT 修改方案: ①使用完整路径来引入包。这里的完整路径指的是 2025-11-03 杂谈
Linux常用命令及操作备忘 Linux常用命令及操作备忘 脚本书写方法 12345678910#!/bin/bashecho "current working dir $(pwd)"cd "/data1/project-main"echo "current working dir $(pwd)"python "script/run.py" - 2025-07-28 杂谈