下面关于强化学习的描述中，错误的说法是哪个？ A: 传统的强化学习依赖线性价值函数（value function）或策略表达来实现 B: 策略就是从环境感知的状态到在这些状态中可采用动作的一个映射 C: 随机策略总是选择估计报酬为最大的动作 D: 奖赏函数定义了在强化学习问题中的目标

2022-05-26

下面关于强化学习的描述中，错误的说法是哪个？
A: 传统的强化学习依赖线性价值函数（value function）或策略表达来实现
B: 策略就是从环境感知的状态到在这些状态中可采用动作的一个映射
C: 随机策略总是选择估计报酬为最大的动作
D: 奖赏函数定义了在强化学习问题中的目标

答案：

查看