DQN对传统Q-learning做了三处改进:( )。
A: 独立设置了目标网络来单独处理时间差分算法中的TD偏差
B: 利用深度卷积神经网络逼近值函数
C: 利用了经验回放对强化学习的学习过程进行训练
D: 解决了Q-Learning 对价值的过高估计的问题
A: 独立设置了目标网络来单独处理时间差分算法中的TD偏差
B: 利用深度卷积神经网络逼近值函数
C: 利用了经验回放对强化学习的学习过程进行训练
D: 解决了Q-Learning 对价值的过高估计的问题
举一反三
- 在Q学习算法中,如果( )函数为深度神经网络,则该方法称为深度Q网络(DQN)。 A: 相同 B: 状态 C: 求解 D: 逼近
- Q-Learning是强化学习算法中基于价值函数(value-based)的一种算法,主要思想就是将State与Action构建成一张Q值表(Q-table)来存储Q值,然后根据Q值来选取能够获得最大收益的动作。
- Q-learning算法的智能体是什么? A: 神经网络 B: 决策树 C: Q表 D: 贝叶斯网络
- AlphaGo框架中利用大量棋谱来训练深度卷积网络,得到策略网络,同时通过强化学习来提高策略网络的能力
- 在纵向定距离跟驰场景中,神经网络Q学习算法的函数逼近器类型为( ) A: 前馈神经网络 B: 径向基神经网络 C: 深度神经网络 D: 卷积神经网络