在强化学习中,可以通过如下操作得到一个最优的策略( )
A: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在未来可获得反馈值的最大期望。
B: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,马上获得最大反馈值
C: 在每一步中,当位于当前状态时,总是随机采取一个动作
D: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在到达终止状态时,该终止状态可获得最大期望。
A: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在未来可获得反馈值的最大期望。
B: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,马上获得最大反馈值
C: 在每一步中,当位于当前状态时,总是随机采取一个动作
D: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在到达终止状态时,该终止状态可获得最大期望。
举一反三
- 若项目集 Ik 含有 A ->α • ,则在状态 k 时,仅当面临的输入符号 a∈FOLLOW(A)时,才采取“A ->α • ”动作的一定是( )。
- “在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。 A: 采样函数 B: 策略学习与优化 C: 价值函数 D: 动作-价值函数
- 在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s够得到最大的反馈期望”,这句话描述了状态s的( ) ? 价值函数|采样函数|策略优化|动作-价值函数
- 在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
- 在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s够得到最大的反馈期望”,这句话描述了状态s的( ) A: 策略优化 B: 价值函数 C: 动作-价值函数 D: 采样函数