下棋网络又称为策略网络(policynetwork),该网络接受当前棋盘局面作为输入,并输出在当前局面下选择每个位置的落子()?
A: 方差
B: 变异
C: 机率
D: 方向
E: 平均值
A: 方差
B: 变异
C: 机率
D: 方向
E: 平均值
举一反三
- AlphaGo通过以下哪两个不同神经网络合作来改进下棋() A: “策略网络”,它主要作用是观察棋盘布局企图找到最佳的下一步。 B: “价值网络”预测每一个棋手赢棋的可能,在给定棋子位置情况下,通过整体局面判断来辅助落子选择器,预测游戏的赢家。 C: 综合网络,估计下一步的结果。 D: 通过和其他棋手竞赛来改进下棋。
- AlphaGo通过什么预测当局面下的胜率?() A: 监督学习策略网络 B: 强化学习策略网络 C: 蒙特卡洛树搜寻索算法 D: 价值网络 E: 支持向量机
- 下面属于当前互联网前沿研究方向的是 A: 软件定义网络 B: 信息中心网络 C: 网络管理 D: 网络功能虚拟化
- 以下关于AlphaGo内部逻辑的描述,最可能正确的是( ) A: 构造一个价值网络和策略网络,探索同时具备高潜在价值和高可能性的最佳落子位置 B: 模拟人类下棋时的决策思维,根据盘面布局中的“眼”“气”等决定落子位 C: 根据人类专家建立显性的决策规则,建立决策树一类的模型,根据局部形势决策落子位置 D: 建立博弈模型和收益矩阵,对每个可能的落子位置进行对抗性分析,从而确定落子位置
- 传统网络单一策略难以应对,当前网络多元化,位置多元化,终端多元化,应用多元化,体验无保证等复杂形式。 A: 正确 B: 错误