在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越(),采用当前Q函数值最大的动作的概率越()。
A: 大;小
B: 大;大
C: 小;小
D: 小;大
A: 大;小
B: 大;大
C: 小;小
D: 小;大
举一反三
- 在epsilon-greedy算法中,epsilon的值越大,采用随机动作的概率越(),采用当前Q函数值代表的最大动作概率越() A: 大,大 B: 小,小 C: 小,大 D: 大,小
- 在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越(),采用当前Q函数值最大的动作的概率越
- 光圈越大,数值越( ),光圈越小,数值越( )。[img=514x281]17d60b0ce342259.png[/img] A: 小 小 B: 大 小 C: 大 大 D: 小 大
- 托宾q值越大,企业能获得的垄断利润越( ),社会福利损失越( ),市场绩效越( )。 A: 小;小;低 B: 大;大;低 C: 大;小;高 D: 小;大;高
- 在强化学习过程中,学习率越大,表示采用新的尝试得到的结果比例越( ),保持旧的结果的比例越() A: 大,大 B: 小,大 C: 大,小 D: 小,小