• 2022-06-17
    根据被评估和被改进的策略是否相同又可分为同策略蒙特卡罗强化学习算法和非策略蒙特卡罗强化学习算法。( )