タグ

ブックマーク / qiita.com/kamito300 (1)

  • 強化学習(DQN) - Qiita

    強化学習を勉強したのでまとめてみます。勉強時間はかなり短時間ですが、割と分かった気になったので、ポイントを記載してみたいと思います(数式は一切用いません)。このポイントを押さえてソースコードを読むと、理解が早いです。一部用語は私が勝手に定義したものもありますが、その他間違えていたら遠慮なくご指摘お願いします。 強化学習を理解するにあたって、環境・エージェント・トレーナーの3人が登場します。その登場人物をベースに説明します。環境、エージェントは一般的に使われる用語ですが、トレーナーは筆者が勝手に名付けています。 環境 エージェントが学習を行う舞台です。オセロだったりシューティングゲームだったりブロック崩しだったり。環境は定量的な状態と行動パターン、ルール(状態と行動を入力として次の状態と報酬を決定)を持ちます。ブロック崩しの場合を例に説明してみます。 定量的な状態: 現在のブロックの数やボー

    強化学習(DQN) - Qiita
  • 1