• 2022-05-26
    下面关于强化学习的描述中,错误的说法是哪个?
    A: 传统的强化学习依赖线性价值函数(value function)或策略表达来实现
    B: 策略就是从环境感知的状态到在这些状态中可采用动作的一个映射
    C: 随机策略总是选择估计报酬为最大的动作
    D: 奖赏函数定义了在强化学习问题中的目标
  • C

    内容

    • 0

      ‎()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。 ‏ A: 监督学习 B: 非监督学习 C: 强化学习 D: 非强化学习

    • 1

      以下关于强化学习说法正确的是? A: 强化学习又称为增强学习、加强学习、再励学习或激励学习,是一种从环境状态到行为映射的学习,目的是使动作从环境中获得的累积回报值最大; B: 强化学习属于无监督学习; C: 在向用户推荐新闻文章的任务中,强化学习会找到用户先前已经阅读过类似的文章并向他们推荐其一; D: 强化学习是机器学习分支之一,介于有监督学习和无监督学习之间。

    • 2

      强化学习基本要素有哪些? A: 状态、动作、奖励 B: 状态、动作、折扣因子 C: 动作、折扣因子、奖励 D: 状态、奖励、探索策略

    • 3

      在强化学习中,主体和环境之间交互的要素有? 回报|状态|强化|动作

    • 4

      在强化学习中,主体和环境之间交互的要素有()。 A: 状态 B: 动作 C: 回报 D: 强化