日本語LLMをPPOでファインチューニングする - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/jovyan

25users がブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

日本語LLMをPPOでファインチューニングする - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure y... Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? TL;DR 3.6Bパラメータの日本語LLMに対し全パラメータをSupervised Fine Tuning (SFT)をしたさらにLoRAを使用してProximal Policy Optimization (PPO)を行った精度を定量評価できるようなタスクでSFT, PPOを行い、PPOにより確かに精度が向上することを確かめた学習はすべてGoogle ColabのA100 GPU1枚を用いて行ったはじめに GPT-3.5などのLLMの学習は以下の３段階で行われています。 Pre-traininig: 大規模なコーパスを用いた言

ブックマークしたユーザー

roogh5eeSha62024/02/01
secondlife2024/01/05
daitom2024/01/01
yk_uminami2023/12/31
kerotan072023/12/30
balaem2023/12/30
keita17142023/12/30
jamalen2023/12/30
jmako2023/12/30
bearcub2023/12/30
toshikish2023/12/30
yuiseki2023/12/30
yanqirenshi2023/12/30
dhesusan46492023/12/30
mukimi2023/12/30
ant_mugi2023/12/30
deep_domao2023/12/30
aont2023/12/29

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx