中国大学MOOC: 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( )
举一反三
- 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( ) A: 策略优化与策略评估 B: 动态规划与Q-Learning C: 价值函数计算与动作-价值函数计算 D: Q-learning 与 贪心策略优化
- AlphaGo框架中利用大量棋谱来训练深度卷积网络,得到策略网络,同时通过强化学习来提高策略网络的能力
- 中国大学MOOC: 深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习?
- 强化学习中,基于有模型的学习有那两种方法。( )。 A: 值迭代 B: 策略迭代 C: TD方法 D: 蒙特卡罗方法
- 判断题:强化学习一般通过试错学习学习到一个最佳行动。