如果我们的机器(或智能体)每次训练更新的损耗会比较大,我们更倾向于选择哪种算法
A: Sarsa
B: Q-learning
C: 两者都可以
D: 两者都不行
A: Sarsa
B: Q-learning
C: 两者都可以
D: 两者都不行
举一反三
- 中国大学MOOC: 如果我们的机器(或智能体)每次训练更新的损耗会比较大,我们更倾向于选择哪种算法
- Sarsa与Q-learning的区别是? A: Sarsa是off-policy,而Q-learning是on-policy B: Sarsa是on-policy,而Q-learning是off-policy C: Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在这次更新时已经确定了 D: Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法
- 干性皮肤选用护肤品() A: 霜 B: 脂 C: 两者都可 D: 两者都不可
- 生地和熟地相比较说法错误的是() A: 两者都具有甘味 B: 两者都具有寒凉之性 C: 两者都可作用于血 D: 两者都来自于同一种植物
- 锁止离合器在涡轮转速与泵轮转速差()时接合。 A: 较大 B: 较小 C: 两者都行 D: 两者都不行