强化学习基本概念

1. Key Concepts

environment 环境

model 描述环境如何对特定动作做出反应（control里面的传函和状态传递方程）

states 一般写作 s

actions 一般写作 a

reward 环境会提供奖励（r∈R）作为反馈。

P transition probabilities between states

agent 智能体，与环境交互并进行控制的主体

policy 一般写作π(s)，告诉我们在状态 s 中要采取什么行动。它是从状态 s 到作 a 的映射，可以是确定性的，也可以是随机的,目的是最大化总奖励，也就是下面说的value.

策略本质上是一个概率分布，πθ(a∣s)\pi_\theta(a | s)πθ(a∣s) 直接给出了每个动作的概率

value 目标指标，量化了一个 policy 的好坏， control 里的代价函数可以算是一种 value

episode 在agent和环境交互中不断积累关于环境的知识，学习最佳策略。系统的变化过程构成一个交互序列，或者叫trial 、trajectory

transition probability function 转移概率函数 P & reward function 奖励函数 R

action-value Q 值

可以把 Q(s,a)Q(s, a)Q(s,a) 理解为：

处于某个状态 s 时，如果执行动作 a，那么未来能得到多少奖励；是对 “选择这个动作值得吗？” 这个问题的量化评估。

蒙特卡洛（MC）方法使用一个简单的想法：它从原始经验中学习，而不对环境动态进行建模，并将观察到的平均回报计算为预期回报的近似值。

更正式地说，几乎所有的 RL 问题都可以被框定为马尔可夫决策过程（MDP）。MDP 中的所有状态都具有 “Markov” 属性，指的是 future 只取决于当前状态，而不取决于历史的事实：

P[St+1|St]=P[St+1|S1,…,St]

或者换句话说，鉴于现在，未来和过去在条件上是独立的，因为当前状态封装了我们决定未来所需的所有统计数据。

马尔可夫定义过程由五个元素 M=⟨S,A,P,R,γ⟩ 组成，其中符号与上一节中的关键概念具有相同的含义，与 RL 问题设置非常一致