在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力( )
A: 贪心策略
B: 蒙特卡洛采样
C: 动态规划
D: Bellman方程
A: 贪心策略
B: 蒙特卡洛采样
C: 动态规划
D: Bellman方程
举一反三
- 中国大学MOOC: 在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力( )
- 深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习? A: 贪心策略函数 B: 蒙特卡洛采样函数 C: q函数 D: Bellman方程
- 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( ) A: 策略优化与策略评估 B: 动态规划与Q-Learning C: 价值函数计算与动作-价值函数计算 D: Q-learning 与 贪心策略优化
- 根据被评估和被改进的策略是否相同又可分为同策略蒙特卡罗强化学习算法和非策略蒙特卡罗强化学习算法。( )
- 中国大学MOOC: 深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习?