跳转至

深度学习平台和应用（2026春）

10.2 实验任务一：多臂老虎机算法

实验任务一：Multi-Armed-Bandit (多臂老虎机)¶

在这个任务中，你将：

理解多臂老虎机问题中的动作、奖励和累积懊悔。
实现 Bernoulli 多臂老虎机环境。
补全 epsilon-贪婪算法的关键代码。
观察不同 epsilon 对累积懊悔曲线的影响。

主要内容包括：

BernoulliBandit 环境构造
累积懊悔计算
增量式奖励估计
epsilon-贪婪算法
不同 epsilon 的实验对比

思考题 1. 多臂老虎机问题中的“探索”和“利用”分别指什么？ 2. 累积懊悔表示什么？为什么它可以用来评价算法好坏？ 3. epsilon 较大和较小时，实验曲线有什么差异？请结合结果解释。