学習の種類 教師あり学習 教師なし学習 半教師あり学習 強化学習 ハッキリとした答えがわからない 良さそうか悪そうかの判断方法自体もわからない 問題設定は遥かに複雑 強化学習を理解する特殊例 強化学習の難しさと課題点 n本腕バンディット問題 問題の状況 行動の価値 知識利用と探査 行動価値関数と行動の決定 Q関数 貪欲法による行動の選択 ソフトマックス行動選択 最後に 行動価値関数に関する続編記事 強化学習を学ぶための書籍 2016年NIPSでも強化学習は話題だった 学習の種類 教師あり学習 教師あり学習では、入力データとそれに対する解答をセットでシステムに与えます。 システムにデータを入力すると、何らかの出力を行います。もしもその出力が解答と違っていれば、システムの出力の仕方を僅かに変更するという形で学習を進めていきます。 システムの出力を データを 解答を システムの出力と解答との違い