• 2022-07-27
    马尔科夫决策过程由哪几个元素来表示
    A: 状态、动作、转移概率、策略、折扣因子
    B: 状态、动作、转移概率、折扣因子、回报函数
    C: 状态、动作、输入、输出、回报函数
    D: 状态、动作、值、策略、回报函数
  • B

    内容

    • 0

      在Q-Learning中,所谓的Q函数是指( ) A: 动作值函数 B: 状态动作函数 C: 策略函数 D: 状态值函数

    • 1

      马尔科夫决策过程中的关键要素包括状态转移函数、策略表示方式与( )。 A: 状态 B: 观察 C: 行动 D: 选项都包括

    • 2

      Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的

    • 3

      Q-learning算法中,Q函数是 A: 状态-动作值函数 B: 状态函数 C: 奖励函数 D: 估值函数

    • 4

      “在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。 A: 采样函数 B: 策略学习与优化 C: 价值函数 D: 动作-价值函数