• 2022-05-27
    Q(s,a)是指在给定状态s的情况下,采取行动a之后,后续的各个状态所能得到的回报()
    A: 最大值
    B: 期望值
    C: 最小值
    D: 总和