misshikiのブックマーク - はてなブックマーク

misshiki id:misshiki

ブックマーク / qiita.com/asagao_iXaga3 (1)

カーネル法を使った強化学習のアルゴリズムの数値実験による検証 - Qiita
1. はじめに文献[1]で、UCLK(Upper-Confidence Linear Kernel reinforcement learning)という強化学習のアルゴリズムが提案されました。このアルゴリズムには、次のような特徴があります。 (1) 状態および行動を特徴量に変換すること (2) 制御対象の動特性が特徴量の線形和に従う、と仮定すること、 (3) また、それぞれの特徴量の重み係数をオンラインで学習すること (4) 学習した動特性のモデルに基づいて、状態価値関数および行動価値関数を求めること (5) 動特性のパラメタは、観測出力の予測誤差ではなくて、状態価値関数の予測誤差に基づいて学習すること最近提案された強化学習のアルゴリズムは、多くの場合、ニューラルネットワークを使って価値関数や方策を実装するため、コーディングにも学習の計算にも苦労していました。基底関数を使うことで、アル
misshiki 2023/02/13
強化学習のアルゴリズムUCLKを以下のように簡略化したアルゴリズム(以下、簡易版UCLK)を実装し、効果を検証した結果を報告”

強化学習
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx