エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
trlxを用いた文書生成モデルの学習②~PPO編~ | 株式会社AI Shift
こんにちは AIチームの戸田です 前回に続き、最近話題のChatGPTの学習に使われているRLHF(Reinforcement... こんにちは AIチームの戸田です 前回に続き、最近話題のChatGPTの学習に使われているRLHF(Reinforcement Learning from Human Feedback)を行うことができる強化学習フレームワーク、trlxを使った文章生成を試してみたいと思います。 本記事ではいよいよ話題のChatGPTと同じ(と思われる※)PPOの学習を、前回と同様WRIMEのデータで試してみたいと思います。実験設定などは前回の記事をご参照ください。また、本記事はtrlxライブラリを一通り動かすことを目的とし、パラメータ調整やデータクレンジングなどのより良い生成を行うための工夫は行いません。 なお、trlxのバージョンはv0.5.0を使用しています。trlxの最新版ではいくつか仕様変更が行われているため、著者と同じ環境で実験したい方はv0.5.0でお試しください。 ※: 2023.02.20
2023/03/06 リンク