タグ

2023年3月11日のブックマーク (1件)

  • Google Colab で trl によるTransformerモデルの強化学習を試す|npaka

    Google Colab」で「trl」によるTransformerモデルの強化学習を試したので、まとめました。 【注意】「trl」を動作させるには、「Google Colab Pro/Pro+」のプレミアム (A100 40GB) が必要です。 1. trl「trl」(Transformer Reanforcement Learning)は、強化学習でTransformerモデルを強化学習するためのパッケージです。 PPOによるTransformerモデルの強化学習は、次の3つのステップで構成されます。 (1) ロールアウト:言語モデルは、文頭のクエリに基づいて応答や継続を生成。 (2) 評価 : クエリとレスポンスは、関数、モデル、人間のフィードバック、またはそれらの組み合わせで評価。 (3) 最適化 : クエリとレスポンスのペアを使用して、シーケンス内のトークンの対数確率を計算後、P

    Google Colab で trl によるTransformerモデルの強化学習を試す|npaka
    kenmatsu4
    kenmatsu4 2023/03/11