Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作,使用Q值及其内置的( )运算来更新Q值。
A: 乘法
B: 极大化
C: 除法
D: 极小化
A: 乘法
B: 极大化
C: 除法
D: 极小化
举一反三
- Q-Learning是强化学习算法中基于价值函数(value-based)的一种算法,主要思想就是将State与Action构建成一张Q值表(Q-table)来存储Q值,然后根据Q值来选取能够获得最大收益的动作。
- 队列Q经过InitQueue(Q);InQueue(Q,a);InQueue(Q,b); ReadFront(Q,x) 运算后,x的值是
- 两对单体可以共聚的是 A: Q和e值相近 B: Q值相近而e值相差大 C: Q值和e值均相差大 D: Q值相差大而e值相近
- 队列Q,经过下列运算后,x的值是。 InitQueue(Q);InQueue(Q,a);InQueue(Q,b);OutQueue(Q,x);ReadFront(Q,x);
- Q-learning算法中,Q函数是 A: 状态-动作值函数 B: 状态函数 C: 奖励函数 D: 估值函数