• 2022-05-27
    在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力( )
    A: 贪心策略
    B: 蒙特卡洛采样
    C: 动态规划
    D: Bellman方程
  • A

    内容

    • 0

      下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估( ) A: 动态规划 B: 蒙特卡洛采样 C: 时序差分(Temporal Difference) D: 深度学习

    • 1

      在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励 A: 探索,输出 B: 探索,利用 C: 利用,探索 D: 利用,输出

    • 2

      强化学习中,基于有模型的学习有那两种方法。( )。 A: 值迭代 B: 策略迭代 C: TD方法 D: 蒙特卡罗方法

    • 3

      在强化学习的过程中,()在稍微偏离目前最好的策略的基础上,能够尝试更多种的策略。()是指运用目前最好的策略,获取更高的奖赏。 A: 探索,输出 B: 探索,利用 C: 利用,探索 D: 利用,输出

    • 4

      强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。()