以下关于AlphaGo内部逻辑的描述,最可能正确的是( )
A: 构造一个价值网络和策略网络,探索同时具备高潜在价值和高可能性的最佳落子位置
B: 模拟人类下棋时的决策思维,根据盘面布局中的“眼”“气”等决定落子位
C: 根据人类专家建立显性的决策规则,建立决策树一类的模型,根据局部形势决策落子位置
D: 建立博弈模型和收益矩阵,对每个可能的落子位置进行对抗性分析,从而确定落子位置
A: 构造一个价值网络和策略网络,探索同时具备高潜在价值和高可能性的最佳落子位置
B: 模拟人类下棋时的决策思维,根据盘面布局中的“眼”“气”等决定落子位
C: 根据人类专家建立显性的决策规则,建立决策树一类的模型,根据局部形势决策落子位置
D: 建立博弈模型和收益矩阵,对每个可能的落子位置进行对抗性分析,从而确定落子位置
举一反三
- 从AlphaGo的决策逻辑中,我们可能获得以下认知( ) A: 人工智能不需要理解围棋的美学与策略,找出了相应的函数就可以决定它的落子 B: 人工智能可以将每个落子位置与最终结果联系起来,从而计算每个位置的价值 C: 人工智能的数据思维对人类思维具有一定的替代性和增强性 D: 人工智能比人类棋手的进步速度快得多
- AlphaGo结合了监督学习和强化学习的优势,通过训练形成一个策略网络,阿尔法狗团队从在线围棋对战平台KGS上获取了16万局人类棋手的对弈棋谱,并从中采样了3000万个样本作为训练样本。将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络对自我对弈进行预测,预测所有可行落子位置的结果
- 下棋规定摸子(),落子()。
- AlphaGo通过以下哪两个不同神经网络合作来改进下棋() A: “策略网络”,它主要作用是观察棋盘布局企图找到最佳的下一步。 B: “价值网络”预测每一个棋手赢棋的可能,在给定棋子位置情况下,通过整体局面判断来辅助落子选择器,预测游戏的赢家。 C: 综合网络,估计下一步的结果。 D: 通过和其他棋手竞赛来改进下棋。
- 下棋网络又称为策略网络(policynetwork),该网络接受当前棋盘局面作为输入,并输出在当前局面下选择每个位置的落子()? A: 方差 B: 变异 C: 机率 D: 方向 E: 平均值