Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作,使用Q值及其内置的( )运算来更新Q值。
A: 乘法
B: 极大化
C: 除法
D: 极小化
A: 乘法
B: 极大化
C: 除法
D: 极小化
B
本题目来自[网课答案]本页地址:https://www.wkda.cn/ask/ytjmjoomjypoxto.html
举一反三
- Q-Learning是强化学习算法中基于价值函数(value-based)的一种算法,主要思想就是将State与Action构建成一张Q值表(Q-table)来存储Q值,然后根据Q值来选取能够获得最大收益的动作。
- 队列Q经过InitQueue(Q);InQueue(Q,a);InQueue(Q,b); ReadFront(Q,x) 运算后,x的值是
- 两对单体可以共聚的是 A: Q和e值相近 B: Q值相近而e值相差大 C: Q值和e值均相差大 D: Q值相差大而e值相近
- 队列Q,经过下列运算后,x的值是。 InitQueue(Q);InQueue(Q,a);InQueue(Q,b);OutQueue(Q,x);ReadFront(Q,x);
- Q-learning算法中,Q函数是 A: 状态-动作值函数 B: 状态函数 C: 奖励函数 D: 估值函数
内容
- 0
队列Q经过InitQueue(Q); InQueue(Q,a); InQueue(Q,b);OutQueue(Q,x); ReadFront(Q,x);运算后,再执行QEmpty(Q)的值是
- 1
两对单体可以交替共聚的是( )。 A: Q值相差较大而e值相近 B: Q和e值相近 C: Q值相近而e值相差大 D: Q和e值均相差较大
- 2
q^3+3*q^2-4=0求q的值
- 3
队列Q经过下列运算后,x的值是____________。InitQueue(Q),InQueue(Q,a),InQueue(Q,b),OutQueue(Q,x);ReadQueue(Q,x) A: a B: b C: 0 D: 1
- 4
Q值检验法中,Q值越大,说明数据越可疑,当Q计算>Q表时,该可疑值应舍弃。