在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s够得到最大的反馈期望”,这句话描述了状态s的( )
A: 策略优化
B: 价值函数
C: 动作-价值函数
D: 采样函数
A: 策略优化
B: 价值函数
C: 动作-价值函数
D: 采样函数
举一反三
- 在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s够得到最大的反馈期望”,这句话描述了状态s的( ) A: 策略优化 B: 价值函数 C: 动作-价值函数 D: 采样函数
- “在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。 A: 采样函数 B: 策略学习与优化 C: 价值函数 D: 动作-价值函数
- 在本课程内容范围内,“在状态s,按照某个策略行动后在未来所获得反馈值得期望”,这句话描述了状态s的( ) A: 策略优化 B: 价值函数 C: 动作-价值函数 D: 采样函数
- 中国大学MOOC: 在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( )
- 中国大学MOOC: 在本课程内容范围内,“在状态s,按照某个策略行动后在未来所获得反馈值的期望”,这句话描述了状态s的( )