“在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。
A: 采样函数
B: 策略学习与优化
C: 价值函数
D: 动作-价值函数
A: 采样函数
B: 策略学习与优化
C: 价值函数
D: 动作-价值函数
举一反三
- 在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s够得到最大的反馈期望”,这句话描述了状态s的( ) ? 价值函数|采样函数|策略优化|动作-价值函数
- 在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s够得到最大的反馈期望”,这句话描述了状态s的( ) A: 策略优化 B: 价值函数 C: 动作-价值函数 D: 采样函数
- 在本课程内容范围内,“在状态s,按照某个策略行动后在未来所获得反馈值得期望”,这句话描述了状态s的( ) A: 策略优化 B: 价值函数 C: 动作-价值函数 D: 采样函数
- 中国大学MOOC: 在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( )
- Q函数Q(s,a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的