qiita.com[B!]新着記事・評価 - はてなブックマーク

『qiita.com』

ゆるふわ強化学習2 - Qiita
9 users
qiita.com/short-clawed_otter

推敲してたら長くなりそうなので、一旦投稿しておきます。内容今回は、価値関数を用いた最適行動学習としてQ学習、SARSA、Expected SARSAを説明します。それらの導入として、非同期式価値反復・方策反復を紹介します。上記のアルゴリズム達は、非同期式価値反復・方策反復の確率近似版として理解されます。その後、適格度トレースについて説明します。適格度トレースは、方策反復と価値反復を繋ぐようなダイナミックプログラミングの手法として紹介します。（長くなるので次回にします。）これは、Sutton等の本ではなく、Bertsekas等の本（Neuro-Dynamic Programming）に紹介されています。というより、前回の記事も後者の本を参考にしています。Bertsekas等の新しい本も欲しいのでボスに最近おねだりしました。その本が来たら、記事たちもアップデートするかもしれません。あと、間
- テクノロジー
- 2017/02/07 19:34
- 強化学習
- DQN
- 学習

ゆるふわ強化学習1 - Qiita
6 users
qiita.com/short-clawed_otter

はじめに強化学習について日本語で説明したゆるふわ入門があればいいなと思ったので書きます。ちょっと冗長だったので、簡潔にしました。重要な注意点として、今回の記事では、環境のモデル（MDPの全ての要素）が分かっている場合を扱います。後に環境のモデルが不明な場合を扱いますが、そのための数学的なバックグラウンドとなるものが今回の記事で扱われます。強化学習とは強化学習が何かについては、たくさんの人がゆるふわな紹介を行っているので、飛ばします。代わりに、数学的な定義を説明します。マルコフ決定過程（MDP）強化学習において、環境の定義が必要となる。この環境の定義には、通常、マルコフ決定過程またはMarkov(ian?) Decision Process（MDP）を用いる。 MDPは5-tuple $(\mathcal{S}, \mathcal{A}, p, r, \gamma)$によって定ま
- テクノロジー
- 2017/01/22 10:00

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx