关于强化学习，以下说法正确的是： A: ε-greedy策略是一种平衡“探索”和“开发”的方法 B: “开发”表示随机地采取某个动作，以便于尝试各种结果；“探索”表示采取当前认为最优的动作，以便于进一步优化评估当前认为最优的动作的值 C: 主体和环境之间交互的要素有状态、动作、回报 D: 在强化学习的过程中，学习率α越大，表示保持旧的学习结果的比例越大

公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！

2022-05-26

关于强化学习，以下说法正确的是： A: ε-greedy策略是一种平衡“探索”和“开发”的方法 B: “开发”表示随机地采取某个动作，以便于尝试各种结果；“探索”表示采取当前认为最优的动作，以便于进一步优化评估当前认为最优的动作的值 C: 主体和环境之间交互的要素有状态、动作、回报 D: 在强化学习的过程中，学习率α越大，表示保持旧的学习结果的比例越大

关于强化学习，以下说法正确的是：
A: ε-greedy策略是一种平衡“探索”和“开发”的方法
B: “开发”表示随机地采取某个动作，以便于尝试各种结果；“探索”表示采取当前认为最优的动作，以便于进一步优化评估当前认为最优的动作的值
C: 主体和环境之间交互的要素有状态、动作、回报
D: 在强化学习的过程中，学习率α越大，表示保持旧的学习结果的比例越大

答案：

查看

举一反三