()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
A: 监督学习
B: 非监督学习
C: 强化学习
D: 非强化学习
A: 监督学习
B: 非监督学习
C: 强化学习
D: 非强化学习
C
举一反三
- 强化学习时机器学习算法的一种,就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
- 中国大学MOOC: ()就是程序或智能体(agent)通过与环境不断地进行交互学习完成从环境到动作的映射,学习的目标就是使累计回报最大化。
- ____有跟环境进行交互,从反馈当中进行不断的学习的过程? 强化学习|非监督学习|监督学习|线性回归
- ()有跟环境进行交互,从反馈当中进行不断的学习的过程。 A: 监督学习 B: 非监督学习 C: 强化学习 D: 线性回归
- 强化学习是机器学习中与( )和( )平行的一种学习方法,是智能体自主与外界环境交互任务的重要手段,通过最大化目标函数的学习方法获取从环境状况到行为的映射。 A: 迁移学习 B: 无监督学习 C: 深度学习 D: 监督学习
内容
- 0
以下关于强化学习说法正确的是? A: 强化学习又称为增强学习、加强学习、再励学习或激励学习,是一种从环境状态到行为映射的学习,目的是使动作从环境中获得的累积回报值最大; B: 强化学习属于无监督学习; C: 在向用户推荐新闻文章的任务中,强化学习会找到用户先前已经阅读过类似的文章并向他们推荐其一; D: 强化学习是机器学习分支之一,介于有监督学习和无监督学习之间。
- 1
强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,由于外部给出的信息很少,强化学习系统必须依靠外部输入进行自我学习。
- 2
()是现在主要的机器学习算法。 A: 监督学习 B: 非监督学习 C: 强化学习 D: 非强化学习
- 3
强化学习与监督学习和非监督学习相同。
- 4
下列关于强化学习的说法正确的是? 在强化学习中,计算机通过不断与环境交互并通过环境反馈来逐渐适应环境|强化学习的概念是从Alphago战胜李世石之后才提出的|强化学习和有监督学习的过程相似,是“开环”的过程|强化学习属于无监督学习的一种,不需要有监督信息