• 2022-06-26
    关于策略梯度的方法说法正确的是
    A: 只适用于离散动作空间
    B: 适用于连续动作空间
    C: 策略梯度的方法与DQN中的目标函数一致
    D: 策略梯度的方法通过Q值挑选动作