• 2022-05-27
    在强化学习的过程中,()能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励
    A: 探索,输出
    B: 探索,利用
    C: 利用,探索
    D: 利用,输出