kenmatsu4のブックマーク / 2023年3月11日

Google Colab で trl によるTransformerモデルの強化学習を試す｜npaka

2 users
note.com/npaka
テクノロジー

「Google Colab」で「trl」によるTransf ormerモデルの強化学習を試したので、まとめました。【注意】「trl」を動作させるには、「Google Colab Pro/Pro+」のプレミアム (A100 40GB) が必要です。 1. trl「trl」(Transf ormer Reanforcement Learning)は、強化学習でTransf ormerモデルを強化学習するためのパッケージです。 PPOによるTransf ormerモデルの強化学習は、次の3つのステップで構成されます。 (1) ロールアウト：言語モデルは、文頭のクエリに基づいて応答や継続を生成。 (2) 評価 : クエリとレスポンスは、関数、モデル、人間のフィードバック、またはそれらの組み合わせで評価。 (3) 最適化 : クエリとレスポンスのペアを使用して、シーケンス内のトークンの対数確率を計算後、P

Google Colab で trl によるTransformerモデルの強化学習を試す｜npaka

はてなブックマーク

タグ

2023年3月11日のブックマーク (1件)

Google Colab で trl によるTransformerモデルの強化学習を試す｜npaka

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス