[強化学習][ゼロつく] 強化学習基礎ワード整理（～動的計画法）

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/the_oga

1 userがブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

[強化学習][ゼロつく] 強化学習基礎ワード整理（～動的計画法）

強化学習ってなに？収益を最大化するために状態に応じた適切な行動を学習する手法例）将棋の場合収益... 強化学習ってなに？収益を最大化するために状態に応じた適切な行動を学習する手法例）将棋の場合収益 = 勝率状態 = 局面行動 = 指し手教師あり学習との違い状態が変わる強化学習：行動によって状態が変わっていく教師あり学習：ラベルを推論してもデータは変化しない収益を得るまでに時間がかかる強化学習：複数回の行動によって収益を得る教師あり学習：推論ひとつひとつに正解がある学習箇所がいろいろある強化学習：状態→行動、行動→収益、状態→収益など様々な関係を学習教師あり学習：データ→ラベルの学習のみマルコフ決定過程（MDP）行動によって次の状態が決まったり、報酬がもらえたりする形式のこと ⇒状態遷移や報酬のもらえ方が決まる ⇒強化学習の問題設定が決まるマルコフ性：次の状態が現在の状態のみによって決まる性質行動→次の状態：p (s' | s, a)で決まる行動→報酬

ブックマークしたユーザー

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx