关于强化学习,以下说法正确的是:
A: ε-greedy策略是一种平衡“探索”和“开发”的方法
B: “开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C: 主体和环境之间交互的要素有状态、动作、回报
D: 在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
A: ε-greedy策略是一种平衡“探索”和“开发”的方法
B: “开发”表示随机地采取某个动作,以便于尝试各种结果;“探索”表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
C: 主体和环境之间交互的要素有状态、动作、回报
D: 在强化学习的过程中,学习率α越大,表示保持旧的学习结果的比例越大
A,C
举一反三
- 在强化学习过程中,____表示随机地采取某个动作,以便于尝试各种结果;____表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。? 开发;开发|探索;探索|探索;开发|开发;探索
- 在强化学习过程中,()表示随机地采取某个动作,以便于尝试各种结果;()表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值
- 在强化学习过程中,( _______)表示随机地采取某个动作,以便于尝试各种结果;( _______)表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。 A: 探索;探索 B: 利用;利用 C: 探索;利用 D: 利用;探索
- 在强化学习过程中表示,随机地采取某个动作,以便于尝试各种结果
- 在强化学习中,主体和环境之间交互的要素有? 回报|状态|强化|动作
内容
- 0
在强化学习中,主体和环境之间交互的要素有()。 A: 状态 B: 动作 C: 回报 D: 强化
- 1
在强化学习的过程中,学习率α越大,表示采用新的尝试得到的结果比例越(),保持旧的结果的比例越
- 2
在强化学习中,下列哪项不是主题和环境之间交互的要素()。 A: 状态 B: 动作 C: 回报 D: 强化
- 3
在强化学习的过程中,学习率α越大,表示采用新的尝试得到的结果比例越____,保持旧的结果的比例越____。? 小;小|大;大|小;大|大;小
- 4
在强化学习中,可以通过如下操作得到一个最优的策略( ) A: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在未来可获得反馈值的最大期望。 B: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,马上获得最大反馈值 C: 在每一步中,当位于当前状态时,总是随机采取一个动作 D: 在每一步中,当位于当前状态时,总是采取一个动作,使得采取该动作后,在到达终止状态时,该终止状态可获得最大期望。