AlphaZeroの意外な構造 またはAlpha Goは如何にして棋譜データの利用をやめて自分の経験に頼るようになったか (udemy.com)

囲碁AIの強化学習アルゴリズム:AlphaGoから人の知識なしでゼロから学習に成功した強化学習モデル のゲームAI「AlphaZero」の学習モデルとモンテカルロ木探索を数式とイラストで解説していきます。将棋AIとしても成果を出しています。
内山 充康
機械学習