タグ

ブックマーク / horomary.hatenablog.com (1)

  • LLM時代の強化学習 - どこから見てもメンダコ

    強化学習におけるLLMの活用パターン調査 はじめに:実世界における強化学習の課題 LLM×強化学習 人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例 さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル 外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策 マルチモーダルLLM as 確率方策 参考:GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに:VLM as 確率方策に期待 はじめに:実世界における強化学習の課題 レトロゲームで人間並みのパ

    LLM時代の強化学習 - どこから見てもメンダコ
  • 1