• 2022-05-26
    AlphaGo结合了监督学习和强化学习的优势,通过训练形成一个策略网络,阿尔法狗团队从在线围棋对战平台KGS上获取了16万局人类棋手的对弈棋谱,并从中采样了3000万个样本作为训练样本。将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络对自我对弈进行预测,预测所有可行落子位置的结果