• 2022-05-26
    下面关于强化学习的描述中,错误的说法是哪个?
    A: 传统的强化学习依赖线性价值函数(value function)或策略表达来实现
    B: 策略就是从环境感知的状态到在这些状态中可采用动作的一个映射
    C: 随机策略总是选择估计报酬为最大的动作
    D: 奖赏函数定义了在强化学习问题中的目标