下面关于强化学习的描述中,错误的说法是哪个?
A: 传统的强化学习依赖线性价值函数(value function)或策略表达来实现
B: 策略就是从环境感知的状态到在这些状态中可采用动作的一个映射
C: 随机策略总是选择估计报酬为最大的动作
D: 奖赏函数定义了在强化学习问题中的目标
A: 传统的强化学习依赖线性价值函数(value function)或策略表达来实现
B: 策略就是从环境感知的状态到在这些状态中可采用动作的一个映射
C: 随机策略总是选择估计报酬为最大的动作
D: 奖赏函数定义了在强化学习问题中的目标
举一反三
- 以下哪些方面是设计在仓储调度环境中的强化学习算法时需要考虑的?() A: 动作空间 B: 状态空间 C: 奖励函数 D: 动作选择策略
- “在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。 A: 采样函数 B: 策略学习与优化 C: 价值函数 D: 动作-价值函数
- 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( ) A: 策略优化与策略评估 B: 动态规划与Q-Learning C: 价值函数计算与动作-价值函数计算 D: Q-learning 与 贪心策略优化
- 深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习? A: 贪心策略函数 B: 蒙特卡洛采样函数 C: q函数 D: Bellman方程
- 下列有关强化学习方法的说法正确的是()。 A: 基于值函数强化学习通过不断评价一个行为的好坏进而改进策略,最终将得到一个期望回报很高的策略。 B: 基于策略的强化学习主要用来解决状态空间过大或者不连续的情形。 C: 深度强化学习能够实现高维度原始输入数据的感知和决策控制。现在越来越多应用于机器人领域。 D: 基于策略的强化学习直接优化目标函数,对策略进行参数化表示,与值函数相比,策略化参数的方法更简单,更容易收敛。