エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
[強化学習][ゼロつく] 強化学習基礎ワード整理(~動的計画法)
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
[強化学習][ゼロつく] 強化学習基礎ワード整理(~動的計画法)
強化学習ってなに? 収益を最大化するために状態に応じた適切な行動を学習する手法 例)将棋の場合 収益... 強化学習ってなに? 収益を最大化するために状態に応じた適切な行動を学習する手法 例)将棋の場合 収益 = 勝率 状態 = 局面 行動 = 指し手 教師あり学習との違い 状態が変わる 強化学習:行動によって状態が変わっていく 教師あり学習:ラベルを推論してもデータは変化しない 収益を得るまでに時間がかかる 強化学習:複数回の行動によって収益を得る 教師あり学習:推論ひとつひとつに正解がある 学習箇所がいろいろある 強化学習:状態→行動、行動→収益、状態→収益など様々な関係を学習 教師あり学習:データ→ラベルの学習のみ マルコフ決定過程(MDP) 行動によって次の状態が決まったり、報酬がもらえたりする形式のこと ⇒状態遷移や報酬のもらえ方が決まる ⇒強化学習の問題設定が決まる マルコフ性:次の状態が現在の状態のみによって決まる性質 行動→次の状態:p (s' | s, a)で決まる 行動→報酬