• 2022-05-28
    在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( )
    A: 策略优化与策略评估
    B: 动态规划与Q-Learning
    C: 价值函数计算与动作-价值函数计算
    D: Q-learning 与 贪心策略优化