trlxを用いた文書生成モデルの学習②~PPO編~ | 株式会社AI Shift

テクノロジーカテゴリーの変更を依頼記事元:

www.ai-shift.co.jp

2 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

gengohouse “trlxを用いた文書生成モデルの学習②~PPO編~”

2023/03/06 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

trlxを用いた文書生成モデルの学習②~PPO編~ | 株式会社AI Shift

こんにちは AIチームの戸田です前回に続き、最近話題のChatGPTの学習に使われているRLHF(Reinforcement... こんにちは AIチームの戸田です前回に続き、最近話題のChatGPTの学習に使われているRLHF(Reinforcement Learning from Human Feedback)を行うことができる強化学習フレームワーク、trlxを使った文章生成を試してみたいと思います。本記事ではいよいよ話題のChatGPTと同じ（と思われる※）PPOの学習を、前回と同様WRIMEのデータで試してみたいと思います。実験設定などは前回の記事をご参照ください。また、本記事はtrlxライブラリを一通り動かすことを目的とし、パラメータ調整やデータクレンジングなどのより良い生成を行うための工夫は行いません。なお、trlxのバージョンはv0.5.0を使用しています。trlxの最新版ではいくつか仕様変更が行われているため、著者と同じ環境で実験したい方はv0.5.0でお試しください。 ※: 2023.02.20

ブックマークしたユーザー

dann2023/03/29
gengohouse2023/03/06

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx