在强化学习中，通过哪两个步骤的迭代，来学习得到最佳策略（） A: 策略优化与策略评估 B: 动态规划与Q-Learning C: 价值函数计算与动作-价值函数计算 D: Q-learning 与贪心策略优化 - 网课答案

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！

2022-05-28

在强化学习中，通过哪两个步骤的迭代，来学习得到最佳策略（） A: 策略优化与策略评估 B: 动态规划与Q-Learning C: 价值函数计算与动作-价值函数计算 D: Q-learning 与贪心策略优化

在强化学习中，通过哪两个步骤的迭代，来学习得到最佳策略（）
A: 策略优化与策略评估
B: 动态规划与Q-Learning
C: 价值函数计算与动作-价值函数计算
D: Q-learning 与贪心策略优化

答案：

查看

举一反三