Sarsa与Q-learning的区别是?
A: Sarsa是off-policy,而Q-learning是on-policy
B: Sarsa是on-policy,而Q-learning是off-policy
C: Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在这次更新时已经确定了
D: Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法
A: Sarsa是off-policy,而Q-learning是on-policy
B: Sarsa是on-policy,而Q-learning是off-policy
C: Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在这次更新时已经确定了
D: Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法
举一反三
- 中国大学MOOC: Sarsa与Q-learning的区别是?
- 中国大学MOOC: Q-learning与Sarsa相同的地方是
- Q-learning属于哪种算法 A: On-policy算法 B: Off-policy 算法 C: Model-based 算法 D: Value-based 算法
- 如果我们的机器(或智能体)每次训练更新的损耗会比较大,我们更倾向于选择哪种算法 A: Sarsa B: Q-learning C: 两者都可以 D: 两者都不行
- Q-learning算法包括哪些步骤?() A: 更新策略网络 B: 根据Q表和随机策略选择动作 C: 根据动作计算状态和奖励 D: 迭代更新Q表