yukimori_726のブックマーク - はてなブックマーク

yukimori_726 id:yukimori_726

ブックマーク / qiita.com/kamito300 (1)

強化学習(DQN) - Qiita
強化学習を勉強したのでまとめてみます。勉強時間はかなり短時間ですが、割と分かった気になったので、ポイントを記載してみたいと思います(数式は一切用いません)。このポイントを押さえてソースコードを読むと、理解が早いです。一部用語は私が勝手に定義したものもありますが、その他間違えていたら遠慮なくご指摘お願いします。強化学習を理解するにあたって、環境・エージェント・トレーナーの3人が登場します。その登場人物をベースに説明します。環境、エージェントは一般的に使われる用語ですが、トレーナーは筆者が勝手に名付けています。環境エージェントが学習を行う舞台です。オセロだったりシューティングゲームだったりブロック崩しだったり。環境は定量的な状態と行動パターン、ルール(状態と行動を入力として次の状態と報酬を決定)を持ちます。ブロック崩しの場合を例に説明してみます。定量的な状態: 現在のブロックの数やボー
yukimori_726 2016/10/03
dqn

reinforcementlearning
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx