强化学习时机器学习算法的一种,就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
举一反三
- ()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。 A: 监督学习 B: 非监督学习 C: 强化学习 D: 非强化学习
- 中国大学MOOC: ()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
- 强化学习是机器学习中与( )和( )平行的一种学习方法,是智能体自主与外界环境交互任务的重要手段,通过最大化目标函数的学习方法获取从环境状况到行为的映射。 A: 迁移学习 B: 无监督学习 C: 深度学习 D: 监督学习
- 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。( )
- 强化学习(Reinforcement Learning, RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。( ) A: 正确 B: 错误