关于A3C算法说法正确的是
A: 使用了多个线程,每个线程对应了不同的探索方式
B: 需要使用经验池存储样本
C: A3C是off-policy的算法
D: A3C是on-policy的算法
A: 使用了多个线程,每个线程对应了不同的探索方式
B: 需要使用经验池存储样本
C: A3C是off-policy的算法
D: A3C是on-policy的算法
举一反三
- 中国大学MOOC: 关于A3C算法说法正确的是
- 以下属于Actor-Critic算法的是 A: DDPG B: Double DQN C: A3C D: Noisy DQN
- Q-learning属于哪种算法 A: On-policy算法 B: Off-policy 算法 C: Model-based 算法 D: Value-based 算法
- 下列关于线程的描述中,错误的是( )。 A: 一个进程可以包含多个线程 B: 同一线程的算法内部是串行执行的 C: 不同线程的算法之间是并发执行的 D: 同一进程中不同线程的算法之间不能共享数据
- Sarsa与Q-learning的区别是? A: Sarsa是off-policy,而Q-learning是on-policy B: Sarsa是on-policy,而Q-learning是off-policy C: Q-learning在算法更新时,对应的下一个动作并没有执行,而sarsa的下一个动作在这次更新时已经确定了 D: Q-learning是一种保守的算法,sarsa是一种贪婪勇敢的算法