下面关于强化学习的描述中,错误的说法是哪个?
A: 传统的强化学习依赖线性价值函数(value function)或策略表达来实现
B: 策略就是从环境感知的状态到在这些状态中可采用动作的一个映射
C: 随机策略总是选择估计报酬为最大的动作
D: 奖赏函数定义了在强化学习问题中的目标
A: 传统的强化学习依赖线性价值函数(value function)或策略表达来实现
B: 策略就是从环境感知的状态到在这些状态中可采用动作的一个映射
C: 随机策略总是选择估计报酬为最大的动作
D: 奖赏函数定义了在强化学习问题中的目标
C
举一反三
- 以下哪些方面是设计在仓储调度环境中的强化学习算法时需要考虑的?() A: 动作空间 B: 状态空间 C: 奖励函数 D: 动作选择策略
- “在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( _______)。 A: 采样函数 B: 策略学习与优化 C: 价值函数 D: 动作-价值函数
- 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( ) A: 策略优化与策略评估 B: 动态规划与Q-Learning C: 价值函数计算与动作-价值函数计算 D: Q-learning 与 贪心策略优化
- 深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习? A: 贪心策略函数 B: 蒙特卡洛采样函数 C: q函数 D: Bellman方程
- 下列有关强化学习方法的说法正确的是()。 A: 基于值函数强化学习通过不断评价一个行为的好坏进而改进策略,最终将得到一个期望回报很高的策略。 B: 基于策略的强化学习主要用来解决状态空间过大或者不连续的情形。 C: 深度强化学习能够实现高维度原始输入数据的感知和决策控制。现在越来越多应用于机器人领域。 D: 基于策略的强化学习直接优化目标函数,对策略进行参数化表示,与值函数相比,策略化参数的方法更简单,更容易收敛。
内容
- 0
()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。 A: 监督学习 B: 非监督学习 C: 强化学习 D: 非强化学习
- 1
以下关于强化学习说法正确的是? A: 强化学习又称为增强学习、加强学习、再励学习或激励学习,是一种从环境状态到行为映射的学习,目的是使动作从环境中获得的累积回报值最大; B: 强化学习属于无监督学习; C: 在向用户推荐新闻文章的任务中,强化学习会找到用户先前已经阅读过类似的文章并向他们推荐其一; D: 强化学习是机器学习分支之一,介于有监督学习和无监督学习之间。
- 2
强化学习基本要素有哪些? A: 状态、动作、奖励 B: 状态、动作、折扣因子 C: 动作、折扣因子、奖励 D: 状态、奖励、探索策略
- 3
在强化学习中,主体和环境之间交互的要素有? 回报|状态|强化|动作
- 4
在强化学习中,主体和环境之间交互的要素有()。 A: 状态 B: 动作 C: 回报 D: 强化