强化学习的基本框架中,智能体通过()与环境进行交互时,环境会返给智能体一个当前的()
动作、回报()
举一反三
- 中国大学MOOC: 强化学习的基本框架中,智能体通过()与环境进行交互时,环境会返给智能体一个当前的()。
- 2. 在强化学习中,智能体的学习过程是一个反复与环境进行交互,不断试错、不断进步的过程。在这个过程中,智能体在环境中会选择(),环境可能因此改变自身(),同时环境会反馈智能体以()。 A: 动作、状态、奖励 B: 状态、动作、奖励 C: 奖励、状态、动作 D: 动作、奖励、状态
- 智能体在与环境的交互过程中,智能体不可以完全控制环境,环境也不可以控制智能体,两者相互影响、相互依存。
- 强化学习时机器学习算法的一种,就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
- 强化学习的框架是智能体
内容
- 0
强化学习的框架是智能体()通过观察当前状态作出相应动作。
- 1
()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。 A: 监督学习 B: 非监督学习 C: 强化学习 D: 非强化学习
- 2
强化学习的参与方有哪些() A: 智能体 B: 环境状态 C: 决策框架 D: 奖惩
- 3
智能体在与环境不断的交互过程中,对环境施加作用,则环境会持续不断地发生变化。
- 4
一个典型智能体与环境交互过程的三个要素环节是哪些()。