パラメタ数1.5Bのgpt2-XLを学習した話

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/schnell

4 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

misshiki “gpt2論文を参考に最大サイズのgpt2の日本語版モデルを学習し公開”

GPT-2

2022/12/20 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

パラメタ数1.5Bのgpt2-XLを学習した話

この度、gpt2論文を参考に最大サイズのgpt2の日本語版モデルを学習し公開いたしました。この記事では学... この度、gpt2論文を参考に最大サイズのgpt2の日本語版モデルを学習し公開いたしました。この記事では学習にあたり工夫した点や問題点等を書き連ねます。シングルノードですが比較的大きなモデルを学習しているので知見などを共有できればと思います。なお学習はA100(40gb)8枚のノードを使って合計70日程かけて学習しました。現在公開されているdecoder系モデルのうち今回作成したモデルに近い規模のモデルは知る限り2つあり、こちらはgpt3論文を参考にパラメタ設定をしていると考えられ、今回作成したモデルとは層の深さと隠れ層の次元が異なります。 https://huggingface.co/rinna/japanese-gpt-1b https://huggingface.co/yellowback/gpt-neo-japanese-1.3B rinna/japanese-gpt-1bは生

ブックマークしたユーザー

misshiki2022/12/20
gengohouse2022/12/19

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx