Chapter 2 Multi-armed Bandits

强化学习与其他类型学习的区别最重要的特征是它使用训练信息来评估所采取的行动，而不是通过给出正确的行动来指导。这就是为什么需要积极探索，明确地寻找良好的行为。纯粹的评价性反馈表明所采取的行动有多好，但不是可能的最好还是最坏的行动。另一方面，纯粹的指导性反馈表明要采取的正确行动，而不是实际采取的行动。这种反馈是监督学习的基础，监督学习包括模式分类、人工神经网络和系统辨识的大部分内容。在纯粹的形式上，这两种反馈是截然不同的：评价性反馈完全依赖于所采取的行动，而指导性反馈则独立于所采取的行动。

在本章中，我们将在一个简化的环境中研究强化学习的评估方面，即不涉及学习在多个情况下采取行动。这种非关联性的设置是在这种情况下，大多数涉及评价性反馈的前期工作已经完成，它避免了完全强化学习问题的复杂性。通过研究这个案例，我们可以更清楚地看到评价性反馈是如何从指导性反馈中产生的，并且可以与指导性反馈相结合。

我们所探讨的特定的非关联的、评价性反馈问题是k臂**机问题的一个简单版本。我们用这个问题来介绍一些基本的学习方法，我们在后面的章节中扩展这些方法来应用于完全强化学习问题。在本章的最后，我们通过讨论当**机问题变得关联时，即当最佳操作取决于情况时，会发生什么，从而向完全强化学习问题更进一步。

2.1 A k-armed Bandit Problem

考虑以下学习问题。您会反复面临在不同的选项或操作中进行选择。每次选择之后，你都会从一个平稳的概率分布中得到一个数字奖励，这个概率分布取决于你选择的行动。你的目标是在一段时间内最大限度地获得预期的总回报，例如，超过1000个动作选择，或时间步骤。

这是k臂**机问题的原始形式，因此被比喻为*，或“单臂**机”，只是它有k杆而不是一杆。每一个动作选择就像*的一个杠杆的游戏，奖励就是中大奖的奖金。通过反复的行动选择，你将通过集中你的行动在最好的杠杆上获得最大的收益。另一个类比是医生在一系列重病患者的实验治疗中进行选择。每一次行动都是对治疗的选择，每一次奖励都是患者的生存或幸福。今天，“**机问题”一词有时被用来概括上述问题，但在本书中，我们用它来指代这个简单的例子。

在我们的k臂**机问题中，每一个k行动都有一个预期的或平均的回报，只要这个行动被选中；让我们称之为该行动的价值。我们将在时间步骤t上选择的动作表示为At，相应的奖励表示为Rt。任意动作a的值，q（a）是假定选择a的预期回报：

Reinforcement learning——an introduction强化学习翻译第二章

如果你知道每一个动作的价值，那么解决k臂**机问题将是微不足道的：你总是选择价值最高的行动。我们假设您不一定知道操作值，尽管您可能有估计值。我们将时间步骤t处动作a的估计值表示为Qt（a）。我们希望Qt（a）接近q（a）。

如果您维护操作值的估计值，则在任何时间步中至少有一个操作的估计值最大。我们称之为贪婪行为。当你选择其中一个行动时，我们说你是在利用你目前对这些行动价值的认识。如果您选择了一个nongreedy操作，那么我们称您正在开发，因为这使您能够改进对nongreedy操作价值的估计。开发是正确的做法，以最大限度的预期回报在一个步骤，但从长远来看，开发可能会产生更大的总回报。例如，假设一个贪婪行为的价值是确定的，而其他几个行为被估计为几乎一样好，但有很大的不确定性。至少你不知道其中一个比贪婪的行为更好。如果你在前面有很多时间步骤来选择动作，那么最好去探索一下nongreedy的动作，找出其中哪一个比贪婪的动作更好。在探索过程中，短期回报较低，但长期回报较高，因为在你发现了更好的行动之后，你可以多次利用它们。由于任何单一的行动选择不可能同时进行勘探和开发，人们常常提到勘探和开发之间的“冲突”。

在任何特定的情况下，探索或开发更好的方法都取决于估计值的精确值、不确定性和剩余步骤的数量。有许多复杂的方法，以平衡探索和开发的特殊数学公式的k-臂**机和相关问题。然而，这些方法大多对平稳性和先验知识做了很强的假设，这些假设在大多数应用程序和我们在后面章节中考虑的完全强化学习问题中都是违反或不可能验证的。当这些方法的理论假设不适用时，这些方法的最优性或有界损失的保证就不那么令人满意了。

在这本书中，我们并不担心以复杂的方式平衡探索和开采；我们只关心如何平衡两者。在这一章中，我们提出了几种简单的平衡方法来解决k臂**机问题，并表明它们比通常利用的方法更有效。平衡探索和开发的需要是强化学习中出现的一个独特挑战；我们对k臂**机问题的简单解释使我们能够以一种特别明确的形式表明这一点。

2.2 Action-value Methods

首先，我们将更仔细地研究用于估计操作值的方法，以及使用这些估计值来做出操作选择决策的方法，我们将这些方法统称为操作值方法。回想一下，一个行动的真正价值是选择该行动时的平均回报。估计这一点的一种自然方法是平均实际获得的奖励：

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NiRYS99C-1596449775714)(https://raw.githubusercontent.com/wangyifan2018/cloudimg/master/data20200803181056.png)]

其中，predicatedent表示随机变量，如果predicate为真，则为1，否则为0。如果分母为零，那么我们将Qt（a）定义为某个默认值，例如0。当分母变为无穷大时，根据大数定律，Qt（a）收敛到q（a）。我们称之为估计行动价值的样本平均法，因为每次评估都是相关奖励样本的平均值。当然，这只是估计动作值的一种方法，不一定是最好的方法。然而，现在让我们继续使用这个简单的估计方法，并转向如何使用估计来选择操作的问题。

最简单的动作选择规则是选择一个估计值最高的动作，也就是上一节定义的贪心动作之一。如果有一个以上的贪婪行为，那么将以某种任意的方式在其中进行选择，也许是随机的。我们把这个贪婪的动作选择方法写成

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mAyc8ks6-1596449775717)(https://raw.githubusercontent.com/wangyifan2018/cloudimg/master/data20200803181025.png)]

其中，argmax a表示下面的表达式最大化（任意断开连接）。贪婪的行为选择总是利用现有的知识来最大限度地获得即时的回报；它根本不花时间去抽样明显较差的行为，看看它们是否真的更好。一个简单的选择是在大多数时间里贪婪行事，但每隔一段时间，比如说以小概率”，而不是从所有概率相等的动作中随机选择，而不依赖于动作值的估计值。我们将使用这种近乎贪婪的行为选择规则的方法称为“贪婪方法”。这些方法的一个优点是，随着步数的增加，每个动作将被采样无限次，从而确保所有Qt（a）收敛到各自的q（a）。这当然意味着选择最佳行动的概率收敛到大于1-e“，也就是说，接近确定性。然而，这些仅仅是渐进式的保证，对方法的实用性几乎没有提及。

练习2.1 在贪心行为选择，对于两个动作且“e=0.5”的情况，选择贪心动作的概率是多少？

2.3 The 10-armed Testbed

为了粗略地评估贪婪和贪婪行为值方法的相对有效性，我们在一组测试问题上对它们进行了数值比较。这是一组随机产生的2000个k武装强盗问题，k=10。对于每一个bandit问题，如图2.1所示，动作值，q（a），a=1，…，10，

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-X21oqOn8-1596449775719)(https://raw.githubusercontent.com/wangyifan2018/cloudimg/master/data20200803181129.png)]

图2.1:10臂试验台上的一个**机问题示例。根据均值为零和单位方差的正态分布，选择十个行动中每个行动的真实值q（a），然后根据这些灰色分布的平均值q（a），单位方差正态分布来选择实际奖励。

根据均值为0和方差为1的正态（高斯）分布进行选择。然后，当应用于该问题的学习方法在时间步长t处选择动作时，实际奖励Rt从平均q（At）和方差为1的正态分布中选择。这些分布在图2.1中以灰色显示。我们称这组测试任务为10个武装的测试台。对于任何一种学习方法，我们都可以衡量它的性能和行为，因为它在应用于一个**机问题时，经过1000多个时间步的经验改进。这就是一次跑步。在2000次独立运行中重复此过程，每次运行都有不同的**机问题，我们获得了学习算法平均行为的度量。

图2.2比较了贪婪方法和两个“-greedy方法（=0.01和”=0.1），如上所述，在10个武装的试验台上。所有的方法都使用样本平均技术（初始估计值为0）形成它们的动作值估计值。上图显示的是经验带来的预期回报的增加。贪心法一开始比其他方法进步稍快，但后来降到了一个较低的水平。它的每一步只获得了大约1美元的回报，而在这个试验台上，最好的可能是1.55美元。从长远来看，贪婪的方法表现得更差，因为它经常被困在执行次优操作上。

图2.2：在10个臂的试验台上“e-greedy action-value方法的平均性能。这些数据是平均超过2000次运行，并存在不同的bandit问题。所有的方法都使用样本平均值作为他们的行动值估计。

下面的图表明，贪心法只在大约三分之一的任务中找到了最优动作。在另外三分之二的人中，其最佳行动的初始样本令人失望，而且再也没有回归。贪婪的方法最终表现得更好，因为他们继续探索并提高识别最佳行为的机会。“e=0.1方法探索的更多，通常更早地找到最佳操作，但从未在超过91%的时间内选择该操作。“e=0.01方法改进得比较慢，但最终在图中所示的两个性能度量上都会比“e=0.1”方法更好。也可以随着时间的推移减少e以尽量获得高值和低值的最佳值。

与greedy方法相比，e-greedy方法的优势取决于任务。例如，假设奖励方差更大，比如说10而不是1。有了噪声奖励，就需要更多的探索才能找到最佳的行动，而且“-贪婪的方法应该比贪婪的方法表现得更好。另一方面，如果奖励方差为零，那么贪心方法在尝试一次后就会知道每个动作的真实值。在这种情况下，贪婪的方法实际上可能表现得最好，因为它很快就会找到最佳的动作，然后再也不会去探索。但即使是在确定性的情况下，如果我们削弱其他一些假设，也有很大的优势。例如，假设bandit任务是非平稳的，也就是说，动作的真实值随着时间的推移而改变。在这种情况下，即使是在确定性的情况下，也需要进行探索，以确保其中一个非理性行为没有变为比贪婪行为更好的行为。我们将在接下来的几章中看到，非平稳性是强化学习中最常见的情况。即使底层任务是固定的和确定的，学习者也会面对一组类似bandit的决策任务，每一个任务都会随着学习的进行和agent的决策策略的改变而变化。强化学习需要在探索和开发之间取得平衡。

练习2.2：Bandit示例考虑一个k武装的Bandit问题，k=4个动作，表示为1、2、3和4。考虑将bandit算法应用到这个问题中，使用“-贪心行动选择，样本平均行动值估计，以及Q1（a）=0的初始估计值。假设行动和奖励的初始序列为A1=1，R1=1，A2=2，R2=1，A3=2，R3=2，A4=2，R4=2，A5=3，R5=0。在这些时间步骤中，有些“案例可能已经发生，导致随机选择一个操作。这肯定发生在哪个时间段？这可能发生在哪个时间点？

练习2.3在图2.2所示的比较中，从长期来看，哪种方法在累积回报和选择最佳行动的概率方面表现最好？会好多少？定量地表达你的答案。