监督学习引入了智能体和环境的概念,智能体通过学习和决策,执行最优的动作。( )
错
举一反三
- ()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。 A: 监督学习 B: 非监督学习 C: 强化学习 D: 非强化学习
- 强化学习的基本框架中,智能体通过()与环境进行交互时,环境会返给智能体一个当前的()
- 智能体程序分别有哪些类型?() A: 感知智能体/决策智能体/学习智能体/规划智能体 B: 简单反射型智能体/基于模型的反射型智能体/基于目标的智能体/基于效用的智能体 C: 机器人/软件/硬件/算法 D: 类人智能体/类动物智能体
- 2. 在强化学习中,智能体的学习过程是一个反复与环境进行交互,不断试错、不断进步的过程。在这个过程中,智能体在环境中会选择(),环境可能因此改变自身(),同时环境会反馈智能体以()。 A: 动作、状态、奖励 B: 状态、动作、奖励 C: 奖励、状态、动作 D: 动作、奖励、状态
- 中国大学MOOC: 强化学习的基本框架中,智能体通过()与环境进行交互时,环境会返给智能体一个当前的()。
内容
- 0
人工智能就是研究和设计智能体,智能体不包括()。 A: 感知 B: 思考和决策 C: 动作 D: 心理研究
- 1
强化学习的参与方有哪些() A: 智能体 B: 环境状态 C: 决策框架 D: 奖惩
- 2
机器学习中使用的算法可分为()三类 A: 监督学习,无监督学习和强化学习 B: 监督学习,无监督学习和智能学习 C: 监督学习,控制学习和强化学习 D: 控制学习,无监督学习和智能学习
- 3
强化学习是机器学习中与( )和( )平行的一种学习方法,是智能体自主与外界环境交互任务的重要手段,通过最大化目标函数的学习方法获取从环境状况到行为的映射。 A: 迁移学习 B: 无监督学习 C: 深度学习 D: 监督学习
- 4
强化学习时机器学习算法的一种,就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。