一个强化学习模型,下列叙述何者为真?()
A: 一组可以动态变化的状态(state)。比如围棋棋盘上的黑白子的分布位置,市场上的每支股票的价格
B: 一组可以选取的动作(action)。比如对于围棋来说,就是可以落子的位置;对于股票交易来说,就是每个时间点,买入或者卖出的股票以及数量
C: 一个可以和决策主体(agent)进行交互的环境。这个环境会决定每个动作后状态如何变化。比如说围棋博弈中的对手,或者股票市场。在强化学习中,为了降低学习的代价,很多时后我们会使用一个通过机器模拟的环境,而不是以真实场景作为环境
D: 回报(reward)规则。当决策主体通过行动状态发生变化时,它会获得回报或者受到惩罚
E: 以上皆是
A: 一组可以动态变化的状态(state)。比如围棋棋盘上的黑白子的分布位置,市场上的每支股票的价格
B: 一组可以选取的动作(action)。比如对于围棋来说,就是可以落子的位置;对于股票交易来说,就是每个时间点,买入或者卖出的股票以及数量
C: 一个可以和决策主体(agent)进行交互的环境。这个环境会决定每个动作后状态如何变化。比如说围棋博弈中的对手,或者股票市场。在强化学习中,为了降低学习的代价,很多时后我们会使用一个通过机器模拟的环境,而不是以真实场景作为环境
D: 回报(reward)规则。当决策主体通过行动状态发生变化时,它会获得回报或者受到惩罚
E: 以上皆是