Q-learning算法中的Q表(Q-table)的row表示什么?()
A: 奖励(reward)
B: 环境(environment)
C: 代理人(agent)
D: 行动(action)
E: 状态(state)
A: 奖励(reward)
B: 环境(environment)
C: 代理人(agent)
D: 行动(action)
E: 状态(state)
举一反三
- Q-Learning是强化学习算法中基于价值函数(value-based)的一种算法,主要思想就是将State与Action构建成一张Q值表(Q-table)来存储Q值,然后根据Q值来选取能够获得最大收益的动作。
- Q-learning算法包括哪些步骤?() A: 更新策略网络 B: 根据Q表和随机策略选择动作 C: 根据动作计算状态和奖励 D: 迭代更新Q表
- 环境在接受到个体的行动之后,会反馈给个体环境目前的状态(state)以及由于上一个行动而产生的()。 A: action B: reward C: state D: agent
- Q-learning算法中,Q函数是 A: 状态-动作值函数 B: 状态函数 C: 奖励函数 D: 估值函数
- Q-learning算法的智能体是什么? A: 神经网络 B: 决策树 C: Q表 D: 贝叶斯网络