エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント20件
- 注目コメント
- 新着コメント
tick2tack
人間らしい回答をする仕組み。Supervised Fine Tuning: 人の手によるデータでの再学習 Reward Modeling: 複数出力に対する評価順位付け Proximal Policy Optimization: 報酬が最大になるよう自律的な変化
yarumato
“自らが意志を持つような返答は、言語モデルが学習の中で自然と自我を持ったのでしょうか? 違います。こう答えてほしいと思うデータセットを「人手で」大量に作り、学習させている。fine tuning、報酬モデル”
T-norf
OpenAIはGPT3ベースだったと思うけどトークン従量課金でファインチューニング可能なモデル4種類をクラウド提供してるよ。あまり使った報告なくて、どれぐらいの課金でどれぐらいの精度だせるかは、私も知りたいんだけど
natu3kan
学習のさせ方にもコツがいるんだな。そう考えると人力も重要ってことよな。最良の回答になるためのケースの類型をコツコツ教えていくのって。手間をかけるとよくなるのオープンワールドのゲームみある。
qpci32siekqd
OpenAIのドキュメンタリーに書かれている以外に、実際作る場合を考えるとどうやって学習させてるとか、モデルいくつに分割してるのかとか、そんな強化学習上手く制御出来るのかとか、色々気になってくる
shunkeen
ヘビーユーザーが頑張ってRMやって、自身の価値観を反映したPPOが作れれば、自分だけのInstructGPT作れそう。なんなら、シナリオライターがひたすら調教すれば、一貫したキャラを保った無限にセリフを出すAIが作れそう。
tick2tack
人間らしい回答をする仕組み。Supervised Fine Tuning: 人の手によるデータでの再学習 Reward Modeling: 複数出力に対する評価順位付け Proximal Policy Optimization: 報酬が最大になるよう自律的な変化
ussiik1
Step1. Supervised Fine Tuning (SFT) Step2. Reward Modeling (RM) Step3. Proximal Policy Optimization (PPO)
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
いまの話題をアプリでチェック!
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
2023/03/28 リンク