马尔科夫决策过程由哪几个元素来表示
A: 状态、动作、转移概率、策略、折扣因子
B: 状态、动作、转移概率、折扣因子、回报函数
C: 状态、动作、输入、输出、回报函数
D: 状态、动作、值、策略、回报函数
A: 状态、动作、转移概率、策略、折扣因子
B: 状态、动作、转移概率、折扣因子、回报函数
C: 状态、动作、输入、输出、回报函数
D: 状态、动作、值、策略、回报函数
B
举一反三
内容
- 0
在Q-Learning中,所谓的Q函数是指( ) A: 动作值函数 B: 状态动作函数 C: 策略函数 D: 状态值函数
- 1
马尔科夫决策过程中的关键要素包括状态转移函数、策略表示方式与( )。 A: 状态 B: 观察 C: 行动 D: 选项都包括
- 2
Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的
- 3
Q-learning算法中,Q函数是 A: 状态-动作值函数 B: 状态函数 C: 奖励函数 D: 估值函数
- 4
“在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。 A: 采样函数 B: 策略学习与优化 C: 价值函数 D: 动作-价值函数