在强化学习中，可以通过如下操作得到一个最优的策略（） A: 在每一步中，当位于当前状态时，总是采取一个动作，使得采取该动作后，在未来可获得反馈值的最大期望。 B: 在每一步中，当位于当前状态时，总是采取一个动作，使得采取该动作后，马上获得最大反馈值 C: 在每一步中，当位于当前状态时，总是随机采取一个动作 D: 在每一步中，当位于当前状态时，总是采取一个动作，使得采取该动作后，在到达终止状态时，该终止状态可获得最大期望。

公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！

2022-06-15

在强化学习中，可以通过如下操作得到一个最优的策略（） A: 在每一步中，当位于当前状态时，总是采取一个动作，使得采取该动作后，在未来可获得反馈值的最大期望。 B: 在每一步中，当位于当前状态时，总是采取一个动作，使得采取该动作后，马上获得最大反馈值 C: 在每一步中，当位于当前状态时，总是随机采取一个动作 D: 在每一步中，当位于当前状态时，总是采取一个动作，使得采取该动作后，在到达终止状态时，该终止状态可获得最大期望。

在强化学习中，可以通过如下操作得到一个最优的策略（）
A: 在每一步中，当位于当前状态时，总是采取一个动作，使得采取该动作后，在未来可获得反馈值的最大期望。
B: 在每一步中，当位于当前状态时，总是采取一个动作，使得采取该动作后，马上获得最大反馈值
C: 在每一步中，当位于当前状态时，总是随机采取一个动作
D: 在每一步中，当位于当前状态时，总是采取一个动作，使得采取该动作后，在到达终止状态时，该终止状态可获得最大期望。

答案：

查看

举一反三