强化学习基本概念

Porcovsky Lv3

0.综述类网站与文章

Spinning Up as a Deep RL Researcher

A (Long) Peek into Reinforcement Learning

1. Key Concepts

environment 环境

model 描述环境如何对特定动作做出反应(control里面的传函和状态传递方程)

states 一般写作 s

actions 一般写作 a

reward 环境会提供奖励 (r∈R) 作为反馈。

P transition probabilities between states

agent 智能体,与环境交互并进行控制的主体

policy 一般写作π(s), 告诉我们在状态 s 中要采取什么行动。它是从状态 s 到作 a 的映射,可以是确定性的,也可以是随机的,目的是最大化总奖励,也就是下面说的value.

策略本质上是一个概率分布,πθ(a∣s)\pi_\theta(a | s)πθ(a∣s) 直接给出了每个动作的概率

image-20250207094931820

value 目标指标,量化了一个 policy 的好坏, control 里的代价函数可以算是一种 value

image-20250207095002356

episode 在agent和环境交互中不断积累关于环境的知识,学习最佳策略。系统的变化过程构成一个交互序列,或者叫trial 、trajectory

transition probability function 转移概率函数 P & reward function 奖励函数 R

image-20250207095022364

action-value Q 值

可以把 Q(s,a)Q(s, a)Q(s,a) 理解为:

处于某个状态 s 时,如果执行动作 a,那么未来能得到多少奖励;是对 “选择这个动作值得吗?” 这个问题的量化评估。

image-20250207095041716

image-20250207095050144

2. Basic Approaches

  1. DP方法 Dynamic Approach 动态规划

    模型完全已知时,按照 Bellman 方程,我们可以使用动态规划 (DP) 迭代评估价值函数并改进策略。

    1. 策略评估
    2. 策略改进
    3. 策略迭代 Generalized Policy Iteration (GPI) algorithm
  2. MC方法 Monte-Carlo Methods

蒙特卡洛 (MC) 方法使用一个简单的想法:它从原始经验中学习,而不对环境动态进行建模,并将观察到的平均回报计算为预期回报的近似值。

  1. TD方法 Temporal-Difference Learning

    无模型、从经验中学习

    但是相较于MC方法不需要完整的 episode

    TD 学习方法根据现有估计更新目标,而不是像 MC 方法那样完全依赖实际奖励和完整回报。这种方法称为 bootstrapping。

    image-20250207095304901

3. MDP过程

更正式地说,几乎所有的 RL 问题都可以被框定为马尔可夫决策过程 (MDP)。MDP 中的所有状态都具有 “Markov” 属性,指的是 future 只取决于当前状态,而不取决于历史的事实:

P[St+1|St]=P[St+1|S1,…,St]

或者换句话说,鉴于现在,未来和过去在条件上是独立的,因为当前状态封装了我们决定未来所需的所有统计数据。

马尔可夫定义过程由五个元素 M=⟨S,A,P,R,γ⟩ 组成,其中符号与上一节中的关键概念具有相同的含义,与 RL 问题设置非常一致

Markov Chain Monte Carlo Without all the Bullshit

  • 标题: 强化学习基本概念
  • 作者: Porcovsky
  • 创建于 : 2025-02-07 09:46:19
  • 更新于 : 2025-06-11 21:30:00
  • 链接: https://pocro.github.io/2025/02/07/强化学习基本概念/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。
 评论