• 2022-05-27
    在强化学习的过程中,()在稍微偏离目前最好的策略的基础上,能够尝试更多种的策略。()是指运用目前最好的策略,获取更高的奖赏。
    A: 探索,输出
    B: 探索,利用
    C: 利用,探索
    D: 利用,输出