• 2022-06-01
    Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作,使用Q值及其内置的( )运算来更新Q值。
    A: 乘法
    B: 极大化
    C: 除法
    D: 极小化
  • B
    本题目来自[网课答案]本页地址:https://www.wkda.cn/ask/ytjmjoomjypoxto.html

    内容

    • 0

      队列Q经过InitQueue(Q); InQueue(Q,a); InQueue(Q,b);OutQueue(Q,x); ReadFront(Q,x);运算后,再执行QEmpty(Q)的值是

    • 1

      两对单体可以交替共聚的是( )。 A: Q值相差较大而e值相近 B: Q和e值相近 C: Q值相近而e值相差大 D: Q和e值均相差较大

    • 2

      q^3+3*q^2-4=0求q的值

    • 3

      队列Q经过下列运算后,x的值是____________。InitQueue(Q),InQueue(Q,a),InQueue(Q,b),OutQueue(Q,x);ReadQueue(Q,x) A: a B: b C: 0 D: 1

    • 4

      Q值检验法中,Q值越大,说明数据越可疑,当Q计算>Q表时,该可疑值应舍弃。