はじめに 前回は「教師あり学習」の「回帰」と「分類」、「教師なし学習」の「クラスタリング」について説明しました。今回は、もう1つの学習法である「強化学習」について、その代表的なアルゴリズムである「バンディットアルゴリズム」と一緒に説明します。 強化学習は、教師あり学習のように「答え」が与えられるわけではなく、「報酬」を得るために自ら学んで賢くなる学習法です。囲碁や将棋のようなゲームで圧倒的な力を示しますので、”氷上のチェス”と呼ばれるカーリングを例に説明しましょう。 カーリングは4人チームで10エンド戦って合計点数の多い方が勝ちとなるスポーツです。エンドごとに先攻後攻があって後攻が有利なゲームなのですが、エンドに勝つと次のエンドは先攻になるため、わざと引き分けて後攻を続けたり、先攻の時は相手に1点だけ勝たせて後攻を得たりするなどの駆け引きもあります。ゲームの報酬は最終的に試合に勝つことです