AI Lab 経済学チームの森下(@GotaMorishita)です. 今年7月に複数人のポーカーで圧勝したポーカーAI, Pluribus[1]が話題になりました. Pluribusやその元となったLibratus[2]で用いられた理論は, ミクロ経済学の一分野であるゲーム理論のナッシュ均衡でした. ポーカーを展開型ゲームとして定式化し, そのゲームのナッシュ均衡を求め, それを最適戦略としたのです. ナッシュ均衡を求めるアルゴリズムはコンピューターサイエンスでは盛んに研究されており, LibratusやPluribusではCounterfactual Regret Minimization (CFR)と呼ばれる展開型ゲームのナッシュ均衡計算アルゴリズムを応用したものが使われています[3]. 弊ブログでも, 先日, CFRアルゴリズムを花札「こいこい」に適用させた例を紹介しました(こちら
![人間を超えたゲームAIの基盤となった経済学 〜ナッシュ均衡とその計算アルゴリズム〜 | | AI tech studio](https://cdn-ak-scissors.b.st-hatena.com/image/square/31306b4e251385aca06cbedbd624368a77021f30/height=288;version=1;width=512/https%3A%2F%2Fcyberagent.ai%2Fwp-content%2Fuploads%2F%2F2019%2F11%2Fnormal_form_game-1.png)