元ネタ incompleteideas.net ポイント ・学習の過程がステップバイステップで理解できる(目で見える)サンプルを示すことで、「なぜそれでうまく学習できるのか」を理解することを目標とする。 ・アルゴリズムを愚直に実装したコードを示すことで、数式ではなく、コードを通してアルゴリズムを理解する。 Tabular method Multi-arm bandit による導入 MDPの枠組みは一旦無視して、強化学習のポイントとなる「考え方」を理解する ・Exploitation - Exploration のバランスが必要。典型的には ε - greedy を利用する。 ・環境から収集したデータを元に、行動の価値を見積もる価値関数を構成する。 ・データ収取と並行して、価値関数を逐次更新する。 ・逐次更新の方法は、一義的に決まるものではないが、「差分を一定の重みで加えて修正する」という考