在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力( )
A: 贪心策略
B: 蒙特卡洛采样
C: 动态规划
D: Bellman方程
A: 贪心策略
B: 蒙特卡洛采样
C: 动态规划
D: Bellman方程
A
举一反三
- 中国大学MOOC: 在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力( )
- 深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习? A: 贪心策略函数 B: 蒙特卡洛采样函数 C: q函数 D: Bellman方程
- 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( ) A: 策略优化与策略评估 B: 动态规划与Q-Learning C: 价值函数计算与动作-价值函数计算 D: Q-learning 与 贪心策略优化
- 根据被评估和被改进的策略是否相同又可分为同策略蒙特卡罗强化学习算法和非策略蒙特卡罗强化学习算法。( )
- 中国大学MOOC: 深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习?
内容
- 0
下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估( ) A: 动态规划 B: 蒙特卡洛采样 C: 时序差分(Temporal Difference) D: 深度学习
- 1
在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励 A: 探索,输出 B: 探索,利用 C: 利用,探索 D: 利用,输出
- 2
强化学习中,基于有模型的学习有那两种方法。( )。 A: 值迭代 B: 策略迭代 C: TD方法 D: 蒙特卡罗方法
- 3
在强化学习的过程中,()在稍微偏离目前最好的策略的基础上,能够尝试更多种的策略。()是指运用目前最好的策略,获取更高的奖赏。 A: 探索,输出 B: 探索,利用 C: 利用,探索 D: 利用,输出
- 4
强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。()