强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略
举一反三
- 【单选题】强化学习中,()主要探索未知的动作会产生的效果,有利于更新Q值,获得更好的策略。 A. 探索 B. 开发 C. 输入 D. 输出
- 强化学习中,()主要探索未知的动作会产生的效果
- Q-Learning是强化学习算法中基于价值函数(value-based)的一种算法,主要思想就是将State与Action构建成一张Q值表(Q-table)来存储Q值,然后根据Q值来选取能够获得最大收益的动作。
- Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作,使用Q值及其内置的( )运算来更新Q值。 A: 乘法 B: 极大化 C: 除法 D: 极小化
- 强化学习基本要素有哪些? A: 状态、动作、奖励 B: 状态、动作、折扣因子 C: 动作、折扣因子、奖励 D: 状态、奖励、探索策略