在强化学习过程中,( _______)表示随机地采取某个动作,以便于尝试各种结果;( _______)表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。
A: 探索;探索
B: 利用;利用
C: 探索;利用
D: 利用;探索
A: 探索;探索
B: 利用;利用
C: 探索;利用
D: 利用;探索
举一反三
- 在强化学习过程中,____表示随机地采取某个动作,以便于尝试各种结果;____表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。? 开发;开发|探索;探索|探索;开发|开发;探索
- 在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
- 关于强化学习,以下说法正确的是: A: ε-greedy策略是一种平衡“探索”和“开发”的方法 B: “开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值 C: 主体和环境之间交互的要素有状态、动作、回报 D: 在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
- 在强化学习过程中表示,随机地采取某个动作,以便于尝试各种结果
- 在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励 A: 探索,输出 B: 探索,利用 C: 利用,探索 D: 利用,输出