强化学习学习笔记(一)基础概念
强化学习学习笔记(一)基础概念
本笔记是b站的 西湖大学强化学习课程 的笔记。并附带一些个人的思考。 # 一、基础概念
强化学习各章节
- 基础概念
- 贝尔曼方程
- 贝尔曼最优方程
- 值迭代&策略迭代
- 蒙特卡洛学习
- 随机估计
- 时序差分学习
- 值函数估计
- 策略梯度方法
- Actor-Critic 方法
章节关系
章节1-3 强化学习的基础工具 章节4-10 强化学习的算法 章节4→章节5 model-based 到 model-free 章节5→章节7 非增量学习到增量学习 章节7→章节8 表格化的表征到基于函数的表征 章节8→章节9 value-based到policy-based 章节9→章节10 policy-based 和value-based结合
二、核心笔记
- 强化学习要做的是:不断进行策略评估(policy evaluation),然后迭代优化策略
- 由于第一条,可以知道state value的计算是强化学习的核心,可以用以下几种方法计算:基于model、基于MC,以及基于时序差分
- 强化学习基于的是状态的概率转移过程,他的核心就是条件概率公式,包括p(r|s,a),p(a|s),p(s’|s,a)本质都是状态转移的概率
- 强化学习的一大假设是马尔科夫性,描述的是一个马尔科夫过程。马尔科夫决策过程,这个名词可以用马尔科夫、决策、过程来描述。马尔科夫性就是无后效性
- 强化学习要想学好,没数据就得有模型,没模型就得有数据,啥都没有学不好。这里的model指的是world model。没有模型的情况下,对应的model-free方法。
- Off-policy和on-policy对应的是强化学习的两种范式,后面会介绍,不过一句话讲就是off-policy允许模型的target policy和behavior policy不一样
- Return的定义。强化学习里面,return 是相比reward更重要的,return的定义是智能体在一个回合过程中获得的奖励或折扣奖励。也就是说return 评估的是一个序列的价值(能够获得多少总奖励)
- 周期性任务和连续性任务:在强化学习里面,目标是折扣总奖励最大,也就是G = 1 + γr1 + γ²r2 + ...最大。如果任务是有结局的,比如智能体到了终点,在评估折扣总奖励的时候,会把他转换成连续任务去考虑。转换的方式有两种。一种是智能体到达结局后,中断智能体的动作,让他不再移动,奖励一直给0.第二种是智能体可以离开target,然后再回到target,这对应了更一般化的情况。在课程中默认采取的是第二种情况的方式进行讲解
强化学习学习笔记(一)基础概念
https://runsstudio.github.io/2026/01/04/强化学习学习笔记(一)基础概念/