实验任务一:Multi-Armed-Bandit (多臂老虎机)¶
在这个任务中,你将:
- 理解多臂老虎机问题中的动作、奖励和累积懊悔。
- 实现 Bernoulli 多臂老虎机环境。
- 补全 epsilon-贪婪算法的关键代码。
- 观察不同 epsilon 对累积懊悔曲线的影响。
主要内容包括:
- BernoulliBandit 环境构造
- 累积懊悔计算
- 增量式奖励估计
- epsilon-贪婪算法
- 不同 epsilon 的实验对比
思考题 1. 多臂老虎机问题中的“探索”和“利用”分别指什么? 2. 累积懊悔表示什么?为什么它可以用来评价算法好坏? 3. epsilon 较大和较小时,实验曲线有什么差异?请结合结果解释。