Q-learning与Sarsa相同的地方是
A: 都使用了[img=83x23]1803de6ee4b6375.png[/img]等策略进行探索
B: 都用q-table存储状态动作对
C: 更新公式相同
D: 两者都可以找到最优的策略
A: 都使用了[img=83x23]1803de6ee4b6375.png[/img]等策略进行探索
B: 都用q-table存储状态动作对
C: 更新公式相同
D: 两者都可以找到最优的策略
举一反三
- Q-learning算法包括哪些步骤?() A: 更新策略网络 B: 根据Q表和随机策略选择动作 C: 根据动作计算状态和奖励 D: 迭代更新Q表
- 中国大学MOOC: Q-learning与Sarsa相同的地方是
- Sarsa与Q-learning的区别是? A: Sarsa是off-policy,而Q-learning是on-policy B: Sarsa是on-policy,而Q-learning是off-policy C: Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在这次更新时已经确定了 D: Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法
- 在Q-Learning中,所谓的Q函数是指()。 A: 状态动作函数 B: 状态值函数 C: 动作值函数 D: 策略函数
- 在Q-Learning中,所谓的Q函数是指( ) A: 动作值函数 B: 状态动作函数 C: 策略函数 D: 状态值函数