はじめに 環境とエージェント 環境 マルコフ過程 本当のマルコフ過程 マルコフ決定過程 本当のマルコフ決定過程 強化学習の話をちょっとだけ 最後に はじめに 強化学習を真面目に勉強し始めたので、ここまで学んだ知見を記事としてまとめます。 線形代数の基本的な表記や確率統計で出てくる基本的な言葉を前提とし、理論的な証明などは割愛し結果だけを認める形で進めていきたいと思います。 環境とエージェント まず最初に強化学習で現れる「環境とエージェントの相互作用」なるもの言葉について、実を言うと、目の前にある課題は環境とエージェントの相互作用というのは必ずしも必要がないかもしれません(そうであれば強化学習という手段を行使しないということ…)。 強化学習を学び始めるとどうしてもこの相互作用なるものが前提で話が進んでしまうため、若干の分かりにくさが生まれてしまうように思います。ここでは思い切って、「環境」と