タグ

ブックマーク / qiita.com/asagao_iXaga3 (1)

  • カーネル法を使った強化学習のアルゴリズムの数値実験による検証 - Qiita

    1. はじめに 文献[1]で、UCLK(Upper-Confidence Linear Kernel reinforcement learning)という強化学習のアルゴリズムが提案されました。このアルゴリズムには、次のような特徴があります。 (1) 状態および行動を特徴量に変換すること (2) 制御対象の動特性が特徴量の線形和に従う、と仮定すること、 (3) また、それぞれの特徴量の重み係数をオンラインで学習すること (4) 学習した動特性のモデルに基づいて、状態価値関数および行動価値関数を求めること (5) 動特性のパラメタは、観測出力の予測誤差ではなくて、状態価値関数の予測誤差に基づいて学習すること 最近提案された強化学習のアルゴリズムは、多くの場合、ニューラルネットワークを使って価値関数や方策を実装するため、コーディングにも学習の計算にも苦労していました。基底関数を使うことで、アル

    カーネル法を使った強化学習のアルゴリズムの数値実験による検証 - Qiita
    misshiki
    misshiki 2023/02/13
    強化学習のアルゴリズムUCLKを以下のように簡略化したアルゴリズム(以下、簡易版UCLK)を実装し、効果を検証した結果を報告”
  • 1