この記事は自作している強化学習フレームワークの解説記事です。 はじめに 今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。 今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。 このアルゴリズムは以下の状況でかなりの精度を誇ります。 マルコフ決定過程なモデル 状態が離散で現実的な数 行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します 基本アイデア 基本的なアイデアは探索(Exploration)と活用(Exploitation)の分離です。 強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。 私が過去に記事で取り上げた手法では、どれも探索と活用のバランスをとり学習を進めて
![ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/6e9833943e6c516675cf20e3aafa6846597b0137/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9JUUzJTgxJUJDJUUzJTgxJThGJUUzJTgxJUFFJUUzJTgxJThCJUUzJTgyJTkzJUUzJTgxJThDJUUzJTgxJTg4JUUzJTgxJTlGJUUzJTgxJTk1JUUzJTgxJTg0JUUzJTgxJThEJUUzJTgyJTg3JUUzJTgxJTg2JUUzJTgxJUFFJUU1JUJDJUI3JUU1JThDJTk2JUU1JUFEJUE2JUU3JUJGJTkyJUUzJTgyJUEyJUUzJTgzJUFCJUUzJTgyJUI0JUUzJTgzJUFBJUUzJTgyJUJBJUUzJTgzJUEwJUVGJUJDJTg4JUU1JThGJUE0JUU1JTg1JUI4JUU1JUJDJUI3JUU1JThDJTk2JUU1JUFEJUE2JUU3JUJGJTkyJUU3JUI3JUE4JUVGJUJDJTg5JnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWNsaXA9ZWxsaXBzaXMmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz04ZGJjZmY1MWM2ZTlmOGRiZmQ0MjM1NzhkMmZhZTcwYw%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTcxNiZ0eHQ9JTQwcG9jb2toYyZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTMyJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ZDc4MWFkNWJjMjU1YjY4ODZmZDE1ZjY3NjRiN2Q0OGY%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3Da298b658f1d42ac39577e3f305ea0ead)