以下选项中,通过接收奖励信号来改善行为,从而获得最优策略的
A: 监督学习
B: 无监督学习
C: 强化学习
D: 迁移学习
A: 监督学习
B: 无监督学习
C: 强化学习
D: 迁移学习
举一反三
- 强化学习和监督学习、无监督学习的区别( )。 A: 强化学习根据延迟奖励学习策略 B: 监督学习带有标签 C: 无监督学习没有标签 D: 强化学习使用未标记的数据
- 在自动驾驶中,AI需要不断地通过路面信息来调整开车的决策。这种处理模式适合用( )来训练出合理的策略。 A: 弱化学习 B: 监督学习 C: 强化学习 D: 非监督学
- 以下属于行为主义学派的是( )。 A: 强化学习 B: 监督学习 C: 无监督学习 D: 迁移学习
- 弱监督学习包括()三个典型的机器学习。 A: 半监督学习、迁移学习 B: 监督学习、迁移学习 C: 迁移学习和强化学习 D: 半监督学习、迁移学习和强化学习
- 机器学习根据学习方式可分为 ( )。 A: 监督学习 B: 迁移学习 C: 强化学习 D: 半监督学习 E: 无监督学习