1.1 序贯决策-Zhangwenniu Blog

1.1 序贯决策

rl.fig.1.1

图1.1：一个智能体与广阔外部世界的交互。

强化学习（Reinforcement learning，RL）是一类用于解决各种序贯决策任务的方法。在这类任务中，我们希望设计一个与外部环境进行交互的智能体。智能体维护一个内部状态\(s_t\)，并根据其策略\(\pi\)选择动作\(a_t = \pi(s_t)\)。环境通过返回一个观测值\(o_{t + 1}\)来做出响应，智能体利用状态更新函数\(s_{t + 1} = U(s_t, a_t, o_{t + 1})\)来更新其内部状态。具体示例见图1.1。

1.1.1 问题定义

智能体的目标是选择一个策略\(\pi\)，以最大化期望奖励之和：

\[V_{\pi}(s_0) = \mathbb{E}_{p(a_0, s_1, \ldots, a_T, s_T\vert s_0, \pi)}\left[\sum_{t = 0}^{T}R(s_t, a_t)\vert s_0\right] \tag{1.1}\]

其中，\(s_0\)是智能体的初始状态，\(R(s_t, a_t)\)是奖励函数，用于衡量在给定状态下执行动作的价值，\(V_{\pi}(s_0)\)是在\(s_0\)处评估的策略\(\pi\)的价值函数，期望是关于

\[\begin{align} p(a_0, s_1, a_1, \ldots, a_T, s_T\vert s_0, \pi) &= \pi(a_0\vert s_0)p_{\text{env}}(o_1\vert a_0)\delta(s_1 = U(s_0, a_0, o_1)) \tag{1.2}\\ &\times \pi(a_1\vert s_1)p_{\text{env}}(o_2\vert a_1, o_1)\delta(s_2 = U(s_1, a_1, o_2)) \tag{1.3}\\ &\times \pi(a_2\vert s_2)p_{\text{env}}(o_3\vert a_{1:2}, o_{1:2})\delta(s_3 = U(s_2, a_2, o_3))\ldots \tag{1.4} \end{align}\]

其中，\(p_{\text{env}}\)是环境在观测值上的分布（通常是未知的）。我们将最优策略定义为：

\[\pi^* = \arg\max_{\pi}\mathbb{E}_{p_0(s_0)}[V_{\pi}(s_0)] \tag{1.5}\]

请注意，选择一个策略以最大化期望奖励之和是最大期望效用原则的一个实例。根据我们对环境和智能体形式所做的假设，有多种设计或学习最优策略的方法。我们将在下面讨论其中的一些方法。

1.1.2 通用模型

rl.fig.1.2

图1.2：展示智能体与环境交互的示意图。智能体具有内部状态\(s_t\)，并根据其策略\(\pi_t\)选择动作\(a_t\)。然后，它通过预测函数\(P\)预测其下一个内部状态\(s_{t + 1\vert t}\)，并可选择通过观察解码器\(D\)预测产生的观察值\(\hat{o}_{t + 1}\)。环境具有（隐藏的）内部状态\(z_t\)，世界模型\(W\)会对其进行更新，以响应智能体的动作，得到新状态\(z_{t + 1}=W(z_t,a_t)\)。环境还会通过观察模型\(O\)发出观察值\(o_{t + 1}\)。该观察值会被智能体的观察编码器\(E\)编码为\(e_{t + 1}\)，智能体使用\(s_{t + 1}=U(s_t,a_t,e_{t + 1})\)来更新其内部状态。策略由\(\theta_t\)参数化，并且这些参数可以（在较慢的时间尺度上）由强化学习（RL）策略\(\pi^{RL}\)更新。方形节点是函数，圆形节点是变量（随机或确定性）。虚线方形节点是需要额外随机源（未显示）的随机函数。

序贯决策问题的一种通用表示（这是[Pow22]中提出的“通用建模框架”的扩展版本）如图1.2所示。这里我们假设环境可以用一个具有隐藏状态\(z_t\)的受控马尔可夫过程¹来建模，该隐藏状态在每一步中会根据智能体的动作\(a_t\)进行更新。为了考虑非确定性动态，我们将其写为\(z_{t + 1} = W(z_t, a_t, \epsilon_t)\)，其中\(W\)是环境状态转移函数（通常对智能体是未知的），\(\epsilon_t\)是随机系统噪声。智能体并不会看到世界状态\(z_t\)，而是在每一步看到一个可能有噪声和/或部分的观测值\(o_{t + 1} = O(z_{t + 1}, \epsilon_{t + 1}^o)\)，其中\(\epsilon_{t + 1}^o\)是随机观测噪声。例如，在迷宫导航中，智能体可能只能看到它前方的东西，而不是同时看到世界上的所有事物；此外，当前视图可能会因传感器噪声而失真。世界上的一个给定图像，比如一扇门，可能对应世界上的许多不同位置（这称为感知别名），每个位置可能需要不同的动作。因此，智能体需要使用这些观测值来增量式地更新其对世界的内部信念状态，使用状态更新函数\(s_{t + 1} = SU(s_t, a_t, o_{t + 1})\)；这代表了智能体对潜在世界状态\(z_t\)的信念，以及未知的世界模型\(W\)本身（或其某种近似）。在最简单的情况下，内部状态\(s_t\)可以只存储所有过去的观测值，\(h_t = (o_{1:t}, a_{1:t - 1})\)，但这种非参数模型可能会耗费大量的时间和空间，所以我们通常会考虑参数化近似。然后智能体根据其状态来选择动作，\(a_{t + 1} = \pi_t(s_t)\)。

我们可以通过将状态更新函数分解为两部分来进一步阐述智能体的行为。首先，智能体使用预测函数\(P\)预测自己的下一个状态，\(s_{t + 1\vert t} = P(s_t, a_t)\)，然后使用更新函数\(U\)根据观测值来更新该预测，即使用更新函数\(U(s_{t + 1\vert t}, o_{t + 1})\)。因此，\(SU\)函数被定义为预测函数和更新函数的组合：\(s_{t + 1} = SU(s_t, a_t, o_{t + 1}) = U(P(s_t, a_t), o_{t + 1})\)。如果观测值是高维的（例如图像），智能体可能会选择将观测值编码为一个低维嵌入\(e_{t + 1}\)，使用一个编码器，\(e_{t + 1} = E(o_{t + 1})\)；这可以促使智能体关注感官信号的相关部分。（然后状态更新变为\(s_{t + 1} = U(s_{t + 1\vert t}, e_{t + 1})\)）。可选地，智能体还可以通过训练一个解码器来预测下一个观测值\(o_{t + 1} = D(s_{t + 1\vert t})\)来学习反转这个编码器；这可能是一个有用的训练信号，我们将在第4章中讨论。最后，智能体使用其动作策略\(\pi_t\)。我们将参数化这个策略，\(\theta_t\)，所以\(\pi_t(s_t) = \pi(s_t; \theta_t)\)。这些参数本身可能也需要学习；我们使用符号\(\pi^{RL}\)来表示强化学习策略，它指定了每一步如何更新策略参数。见图1.2的示例。

我们看到，一般来说，有三个相互作用的随机过程需要处理：环境的状态\(z_t\)（通常受智能体动作的影响）；智能体的内部状态\(s_t\)（反映了它对环境基于观测数据的信念）；以及智能体的策略参数\(\theta_t\)（根据存储在信念状态中的信息进行更新）。强化学习算法众多的原因是这个框架非常通用。在本文的其余部分，我们将研究特殊情况，即我们对环境的状态\(z_t\)和动态、智能体的状态\(s_t\)和动态、动作策略\(\pi(s_t\vert \theta_t)\)的形式以及策略学习方法的形式做出不同假设，\(\theta_{t + 1} = \pi^{RL}(\theta_t, s_t, a_t, o_{t + 1})\)。

1.1.3 episodic任务与continuing任务

如果智能体有可能永远与环境进行交互，我们称其为continuing任务。或者，如果智能体的交互在系统进入终止状态或吸收状态（即转移到自身且奖励为0的状态）时结束，那么智能体处于episodic任务中。进入终止状态后，我们可以从新的初始世界状态\(z_0 \sim p_0\)开始一个新的episode（智能体通常也会重新初始化其内部状态\(s_0\)）。episode的长度一般是随机的。例如，机器人到达目标所需的时间可能会有很大差异，这取决于它做出的决策以及环境中的随机性。最后，如果episodic任务中的轨迹长度\(T\)是固定且已知的，那么它被称为有限时域问题。

我们将时间\(t\)时某个状态的回报定义为从该时刻起获得的期望奖励之和，其中每个奖励都乘以一个折扣因子\(\gamma \in [0, 1]\)：

\[\begin{align} G_t &\triangleq r_t + \gamma r_{t + 1} + \gamma^2 r_{t + 2} + \cdots + \gamma^{T - t - 1} r_{T - 1} \tag{1.6}\\ &= \sum_{k = 0}^{T - t - 1} \gamma^{k} r_{t + k} = \sum_{j = t}^{T - 1} \gamma^{j - t} r_{j} \tag{1.7} \end{align}\]

其中\(r_t = R(s_t, a_t)\)是奖励，\(G_t\)是未来奖励总和。对于在时间\(T\)终止的episodic任务，当\(t \geq T\)时，我们定义\(G_t = 0\)。显然，回报满足以下递归关系：

\[G_t = r_t + \gamma (r_{t + 1} + \gamma r_{t + 2} + \cdots) = r_t + \gamma G_{t + 1} \tag{1.8}\]

此外，我们将价值函数定义为未来奖励总和的期望值：

\[V_{\pi}(s_t) = \mathbb{E}[G_t\vert \pi] \tag{1.9}\]

折扣因子\(\gamma\)有两个作用。首先，只要我们使用\(\gamma < 1\)且奖励\(r_t\)有界，即使\(T = \infty\)（即无限时域），它也能确保回报是有限的。其次，它对短期奖励赋予更大的权重，这通常会促使智能体更快地实现其目标。（例如，如果\(\gamma = 0.99\)，那么一个在15步内获得终止奖励1.0的智能体将获得期望折扣奖励\(0.99^{15} = 0.86\)，而如果它用了17步，就只能得到\(0.99^{17} = 0.84\)。）然而，如果\(\gamma\)太小，智能体就会变得过于贪婪。在极端情况下，当\(\gamma = 0\)时，智能体完全短视，只试图最大化其即时奖励。一般来说，折扣因子反映了这样一种假设，即交互在下一时刻结束的概率为\(1 - \gamma\)。对于已知\(T\)的有限时域问题，我们可以设\(\gamma = 1\)，因为我们事先知道智能体的生命周期。

1.1.4 遗憾值

到目前为止，我们一直在讨论如何最大化奖励。然而，奖励的上限通常是未知的，所以很难判断一个给定智能体的表现如何。另一种方法是基于遗憾值来考虑，遗憾值定义为智能体策略下的期望奖励与先知策略\(\pi_*\)（已知真实马尔可夫决策过程(MDP)的策略）下的期望奖励之间的差异。具体来说，设\(\pi_t\)为智能体在时间\(t\)的策略。那么在\(t\)时刻的单步遗憾值定义为：

\[l_t \triangleq \mathbb{E}_{s_{1:t}} \left[R(s_t, \pi_*(s_t)) - \mathbb{E}_{\pi(a_t\vert s_t)} [R(s_t, a_t)]\right] \tag{1.10}\]

这里的期望是关于使用策略\(\pi\)选择动作时的随机性，以及之前的状态、动作和奖励，还有其他潜在的随机来源。

如果我们像在大多数优化问题中那样，只关心智能体的最终性能，那么查看最后一步的简单遗憾值，即\(l_T\)就足够了。优化简单遗憾值会导致一个被称为纯探索的问题[BMS11]，在这个问题中，智能体需要与环境交互来学习潜在的马尔可夫决策过程；最后，它可以使用规划方法来求解最终的策略（见2.2节）。然而，在强化学习中，更常见的是关注累积遗憾值，也称为总遗憾值或简称为遗憾值，其定义为：

\[L_T \triangleq \mathbb{E} \left[\sum_{t = 1}^{T} l_t\right] \tag{1.11}\]

因此，智能体在学习模型和策略的过程中会积累奖励（和遗憾值）。这被称为边学习边收益，它需要执行探索性动作来学习模型（进而优化长期奖励），同时还要执行在每一步都能最大化奖励的动作。这就需要解决探索 - 利用权衡问题，正如我们在1.4节中讨论的那样。

1.1.5 扩展阅读

在后续章节中，我们将描述学习最优策略的方法，以最大化\(V_{\pi}(s_0) = \mathbb{E}[G_0\vert s_0, \pi]\)。关于强化学习的更多细节，可以在如[Sze10; SB18; Aga+22a; Pla22; ID19; RJ22; Li23; MMT24]等教科书中找到，以及在如[Aru+17; FL+18; Li18; Wen18a]等综述文章中查阅。关于强化学习与控制理论的关系的详细内容，例如可参见[Son98; Rec19; Ber19; Mey22]，而关于与运筹学的联系，可查看[Pow22]。

1.1 序贯决策

1.1 序贯决策

1.1.1 问题定义

1.1.2 通用模型

1.1.3 episodic任务与continuing任务

1.1.4 遗憾值

1.1.5 扩展阅读

评论