byaa0001のブックマーク - はてなブックマーク

byaa0001 id:byaa0001

ブックマーク / horomary.hatenablog.com (1)

LLM時代の強化学習 - どこから見てもメンダコ
強化学習におけるLLMの活用パターン調査はじめに：実世界における強化学習の課題 LLM×強化学習人間はゼロショット推論によりサンプル効率の良い学習ができる LLMによるゼロショット推論の例さまざまなLLM活用パターン 1. 報酬モデルとしてのLLM LLMによる代理報酬モデル VLMによる外観ベース代理報酬モデル外部知識にもとづく報酬モデル設計 2. 計画モデルとしてのLLM LLMによるセマンティック計画 LLMによる構造的な探索計画 3. 方策モデルとしてのLLM LLM as 確率方策マルチモーダルLLM as 確率方策参考：GPTアーキテクチャの転用 4. 世界モデルとしてのLLM Language Models Meet World Models (あとで書く) おわりに：VLM as 確率方策に期待はじめに：実世界における強化学習の課題レトロゲームで人間並みのパ
byaa0001 2023/11/26
LLM

AI
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx