在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励
A: 探索,输出
B: 探索,利用
C: 利用,探索
D: 利用,输出
A: 探索,输出
B: 探索,利用
C: 利用,探索
D: 利用,输出
举一反三
- 在强化学习的过程中,()在稍微偏离目前最好的策略的基础上,能够尝试更多种的策略。()是指运用目前最好的策略,获取更高的奖赏。 A: 探索,输出 B: 探索,利用 C: 利用,探索 D: 利用,输出
- 在强化学习过程中,( _______)表示随机地采取某个动作,以便于尝试各种结果;( _______)表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。 A: 探索;探索 B: 利用;利用 C: 探索;利用 D: 利用;探索
- 在问题解决的探索过程中,逐渐形成了一些问题解决的策略,包括尝试策略和启发策略。()
- 在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力( ) A: 贪心策略 B: 蒙特卡洛采样 C: 动态规划 D: Bellman方程
- 在学习中,小明非常注重对学习实践的安排。他不仅能够有计划地安排和利用课堂学习的最佳时间,对课下时间的利用也非常灵活。这种策略属于( )。 A: 认知策略 B: 元认知策略 C: 时间管理策略 D: 对资源利用管理的策略