7.下列对强化学习特点说法错误的是:( )
A: 反馈及时迅速
B: 无需监督,只有奖励
C: 通用性及推广性强,智能体在真实不确定的新环境同样得到应用
D: 智能体的行为将影响后续的数据,对环境产生持续影响
A: 反馈及时迅速
B: 无需监督,只有奖励
C: 通用性及推广性强,智能体在真实不确定的新环境同样得到应用
D: 智能体的行为将影响后续的数据,对环境产生持续影响
举一反三
- 下列对强化学习特点说法错误的是:( )。 A: 智能体的行为将影响后续的数据,对环境产生持续影响 B: 通用性及推广性强,智能体在真实不确定的新环境同样得到应用 C: 无需监督,只有奖励 D: 反馈及时迅速
- 【多选题】下列选项中属于强化学习特点的有() A. 无需监督 B. 反馈不及时,有延时 C. 数据序列化,数据与数据之间有关 D. 通用性及推广性强
- 2. 在强化学习中,智能体的学习过程是一个反复与环境进行交互,不断试错、不断进步的过程。在这个过程中,智能体在环境中会选择(),环境可能因此改变自身(),同时环境会反馈智能体以()。 A: 动作、状态、奖励 B: 状态、动作、奖励 C: 奖励、状态、动作 D: 动作、奖励、状态
- 关于智能体,下列说法错误的是( )。 A: 智能体的强性质指的是在某些特定的应用或者技术中,还可以在一般性质上附加一些其它特定性质 B: 智能体可以完全控制环境 C: 可以将智能体环境划分为确定性和非确定性,其中,确定性指的是执行某个行为所导致的状态是确定的 D: 依据智能体能否精确感知外部环境状态将智能体环境划分为可访问和不可访问
- 理性智能体指的是有正确行为的智能体,但正确的行为意味着什么?考虑智能体行为的后果,选择下列有关“正确的行为”概念的真实陈述() A: 但若该序列是不期望的,则该智能体对其环境造成破坏。 B: 如果该序列是所期望的,则该智能体表现良好 C: 智能体在某个环境中依据感知生成动作序列 D: 这些动作序列引起环境改变而产生状态序列