• 2022-06-15
    在强化学习中,可以通过如下操作得到一个最优的策略( )
    A: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在未来可获得反馈值的最大期望。
    B: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,马上获得最大反馈值
    C: 在每一步中,当位于当前状态时,总是随机采取一个动作
    D: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在到达终止状态时,该终止状态可获得最大期望。