• 2022-07-23
    在多臂赌博机问题中,描述正确的是
    A: 每个赌博机获得收益分数是随机的
    B: 悔值函数体现了过去的决策是否正确
    C: 最优策略的期望得分是可以被求出的
    D: 智能体希望在过去的最大回报中选择下一个赌博机