Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作，使用Q值及其内置的（）运算来更新Q值。 A: 乘法 B: 极大化 C: 除法 D: 极小化 - 网课答案

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

关注微信公众号《课帮忙》查题

公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！
公告：维护QQ群：833371870，欢迎加入！

2022-06-01

Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作，使用Q值及其内置的（）运算来更新Q值。 A: 乘法 B: 极大化 C: 除法 D: 极小化

Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作，使用Q值及其内置的（）运算来更新Q值。
A: 乘法
B: 极大化
C: 除法
D: 极小化

答案：

查看

举一反三