• 2022-05-26
    AlphaGo结合了监督学习和强化学习的优势,通过训练形成一个策略网络,阿尔法狗团队从在线围棋对战平台KGS上获取了16万局人类棋手的对弈棋谱,并从中采样了3000万个样本作为训练样本。将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络对自我对弈进行预测,预测所有可行落子位置的结果
  • 内容

    • 0

      AlphaGo通过以下哪两个不同神经网络合作来改进下棋() A: “策略网络”,它主要作用是观察棋盘布局企图找到最佳的下一步。 B: “价值网络”预测每一个棋手赢棋的可能,在给定棋子位置情况下,通过整体局面判断来辅助落子选择器,预测游戏的赢家。 C: 综合网络,估计下一步的结果。 D: 通过和其他棋手竞赛来改进下棋。

    • 1

      正步训练一共有( )个训练步骤。

    • 2

      以下关于AlphaGo内部逻辑的描述,最可能正确的是( ) A: 构造一个价值网络和策略网络,探索同时具备高潜在价值和高可能性的最佳落子位置 B: 模拟人类下棋时的决策思维,根据盘面布局中的“眼”“气”等决定落子位 C: 根据人类专家建立显性的决策规则,建立决策树一类的模型,根据局部形势决策落子位置 D: 建立博弈模型和收益矩阵,对每个可能的落子位置进行对抗性分析,从而确定落子位置

    • 3

      围棋棋盘一共有()个交叉点。

    • 4

      ( )利用已知类别的样本,训练学习得到一个最优模型,使其达到所要求性能,再利用这个训练所得模型对未知数据进行分类。 A: 强化学习 B: 半监督学习 C: 无监督学习 D: 监督学习