yuki_2021のブックマーク - はてなブックマーク

yuki_2021 id:yuki_2021

ブックマーク / qiita.com/pocokhc (1)

ぼくのかんがえたさいきょうの強化学習アルゴリズム（古典強化学習編） - Qiita
この記事は自作している強化学習フレームワークの解説記事です。はじめに今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。このアルゴリズムは以下の状況でかなりの精度を誇ります。マルコフ決定過程なモデル状態が離散で現実的な数行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します基本アイデア基本的なアイデアは探索（Exploration）と活用（Exploitation）の分離です。強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。私が過去に記事で取り上げた手法では、どれも探索と活用のバランスをとり学習を進めて
yuki_2021 2024/02/13
アルゴリズム

qiita

機械学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx