• 2021-04-14
    强化学习的基本框架中,智能体通过()与环境进行交互时,环境会返给智能体一个当前的()
  • 动作、回报()

    内容

    • 0

      强化学习的框架是智能体()通过观察当前状态作出相应动作。

    • 1

      ‎()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。 ‏ A: 监督学习 B: 非监督学习 C: 强化学习 D: 非强化学习

    • 2

      强化学习的参与方有哪些() A: 智能体 B: 环境状态 C: 决策框架 D: 奖惩

    • 3

      智能体在与环境不断的交互过程中,对环境施加作用,则环境会持续不断地发生变化。

    • 4

      一个典型智能体与环境交互过程的三个要素环节是哪些()。