qiita.com[B!]新着記事・評価 - はてなブックマーク

『qiita.com』

【入門】強化学習 - Qiita
3 users
qiita.com/yyokii

強化学習をざっと勉強した際のまとめです。入門者の参考となれば幸いです。強化学習とは強化学習の位置付けはこのようになります。【用語】 - 教師あり学習 - 教師データとして入力とその出力がある - 回帰や分類問題 - 教師なし学習 - 教師データがない - データの特徴を抽出したり、表現変換強化学習では何をしていくかというと、「将来の価値を最大化するような行動を学習」していきます。強化学習のモデル強化学習の基本的な仕組みは次のようになっています。以下の$t$は任意のステップを示しますエージェント（意思決定者）: 意思決定と学習を行う主体環境: エージェントが相互作用を行う対象状態: 環境がエージェントの行動を反映した上で、エージェントに与える状況, $s_t$ 行動: $a_t$ 報酬: $r_t$ 方策: $π_t(s, a)$:確率分布で表される行動戦略。任意の
- テクノロジー
- 2020/05/18 17:49

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx