DQN对传统Q-learning做了三处改进：（）。 A: 独立设置了目标网络来单独处理时间差分算法中的TD偏差 B: 利用深度卷积神经网络逼近值函数 C: 利用了经验回放对强化学习的学习过程进行训练 D: 解决了Q-Learning 对价值的过高估计的问题

2022-07-27

DQN对传统Q-learning做了三处改进：（）。
A: 独立设置了目标网络来单独处理时间差分算法中的TD偏差
B: 利用深度卷积神经网络逼近值函数
C: 利用了经验回放对强化学习的学习过程进行训练
D: 解决了Q-Learning 对价值的过高估计的问题

答案：

查看