在强化学习的过程中,()在稍微偏离目前最好的策略的基础上,能够尝试更多种的策略。()是指运用目前最好的策略,获取更高的奖赏。
A: 探索,输出
B: 探索,利用
C: 利用,探索
D: 利用,输出
A: 探索,输出
B: 探索,利用
C: 利用,探索
D: 利用,输出
举一反三
- 在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励 A: 探索,输出 B: 探索,利用 C: 利用,探索 D: 利用,输出
- 在强化学习过程中,( _______)表示随机地采取某个动作,以便于尝试各种结果;( _______)表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。 A: 探索;探索 B: 利用;利用 C: 探索;利用 D: 利用;探索
- 在问题解决的探索过程中,逐渐形成了一些问题解决的策略,包括尝试策略和启发策略。()
- 在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力( ) A: 贪心策略 B: 蒙特卡洛采样 C: 动态规划 D: Bellman方程
- 【单选题】强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略。 A. 探索 B. 开发 C. 输入 D. 输出