一个强化学习模型，下列叙述何者为真？（） A: 一组可以动态变化的状态（state）。比如围棋棋盘上的黑白子的分布位置，市场上的每支股票的价格 B: 一组可以选取的动作（action）。比如对于围棋来说，就是可以落子的位置；对于股票交易来说，就是每个时间点，买入或者卖出的股票以及数量 C: 一个可以和决策主体（agent）进行交互的环境。这个环境会决定每个动作后状态如何变化。比如说围棋博弈中的对手，或者股票市场。在强化学习中，为了降低学习的代价，很多时后我们会使用一个通过机器模拟的环境，而不是以真实场景作为环境 D: 回报（reward）规则。当决策主体通过行动状态发生变化时，它会获得回报或者受到惩罚 E: 以上皆是

公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！

2022-05-26

一个强化学习模型，下列叙述何者为真？（） A: 一组可以动态变化的状态（state）。比如围棋棋盘上的黑白子的分布位置，市场上的每支股票的价格 B: 一组可以选取的动作（action）。比如对于围棋来说，就是可以落子的位置；对于股票交易来说，就是每个时间点，买入或者卖出的股票以及数量 C: 一个可以和决策主体（agent）进行交互的环境。这个环境会决定每个动作后状态如何变化。比如说围棋博弈中的对手，或者股票市场。在强化学习中，为了降低学习的代价，很多时后我们会使用一个通过机器模拟的环境，而不是以真实场景作为环境 D: 回报（reward）规则。当决策主体通过行动状态发生变化时，它会获得回报或者受到惩罚 E: 以上皆是

一个强化学习模型，下列叙述何者为真？（）
A: 一组可以动态变化的状态（state）。比如围棋棋盘上的黑白子的分布位置，市场上的每支股票的价格
B: 一组可以选取的动作（action）。比如对于围棋来说，就是可以落子的位置；对于股票交易来说，就是每个时间点，买入或者卖出的股票以及数量
C: 一个可以和决策主体（agent）进行交互的环境。这个环境会决定每个动作后状态如何变化。比如说围棋博弈中的对手，或者股票市场。在强化学习中，为了降低学习的代价，很多时后我们会使用一个通过机器模拟的环境，而不是以真实场景作为环境
D: 回报（reward）规则。当决策主体通过行动状态发生变化时，它会获得回报或者受到惩罚
E: 以上皆是

答案：

查看

举一反三