Q-Learning是强化学习算法中基于价值函数(value-based)的一种算法,主要思想就是将State与Action构建成一张Q值表(Q-table)来存储Q值,然后根据Q值来选取能够获得最大收益的动作。
举一反三
- Q-learning算法中,Q函数是 A: 状态-动作值函数 B: 状态函数 C: 奖励函数 D: 估值函数
- Q-learning算法中的Q表(Q-table)的row表示什么?() A: 奖励(reward) B: 环境(environment) C: 代理人(agent) D: 行动(action) E: 状态(state)
- Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作,使用Q值及其内置的( )运算来更新Q值。 A: 乘法 B: 极大化 C: 除法 D: 极小化
- 在Q-Learning中,所谓的Q函数是指( _______)。 A: 价值函数 B: 策略函数 C: 动作-价值函数 D: 动作值函数
- 在Q-Learning中,所谓的Q函数是指? 状态值函数|状态动作函数|动作值函数|策略函数