「Google Colab」で「trl」によるTransformerモデルの強化学習を試したので、まとめました。 【注意】「trl」を動作させるには、「Google Colab Pro/Pro+」のプレミアム (A100 40GB) が必要です。 1. trl「trl」(Transformer Reanforcement Learning)は、強化学習でTransformerモデルを強化学習するためのパッケージです。 PPOによるTransformerモデルの強化学習は、次の3つのステップで構成されます。 (1) ロールアウト:言語モデルは、文頭のクエリに基づいて応答や継続を生成。 (2) 評価 : クエリとレスポンスは、関数、モデル、人間のフィードバック、またはそれらの組み合わせで評価。 (3) 最適化 : クエリとレスポンスのペアを使用して、シーケンス内のトークンの対数確率を計算後、P
![Google Colab で trl によるTransformerモデルの強化学習を試す|npaka](https://cdn-ak-scissors.b.st-hatena.com/image/square/b5885afb522d903b22596af6739221817167a2d9/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F99890390%2Frectangle_large_type_2_d0f867ea4884fcbd0ce73a5a297a173b.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)