跳转至

实验任务一:Multi-Armed-Bandit (多臂老虎机)

在这个任务中,你将:

  1. 理解多臂老虎机问题中的动作、奖励和累积懊悔。
  2. 实现 Bernoulli 多臂老虎机环境。
  3. 补全 epsilon-贪婪算法的关键代码。
  4. 观察不同 epsilon 对累积懊悔曲线的影响。

主要内容包括:

  • BernoulliBandit 环境构造
  • 累积懊悔计算
  • 增量式奖励估计
  • epsilon-贪婪算法
  • 不同 epsilon 的实验对比

思考题 1. 多臂老虎机问题中的“探索”和“利用”分别指什么? 2. 累积懊悔表示什么?为什么它可以用来评价算法好坏? 3. epsilon 较大和较小时,实验曲线有什么差异?请结合结果解释。