Team「たぬき」開発振り返りメモ2: Scaling lawの壁は高かったという話

テクノロジーカテゴリーの変更を依頼記事元:

zenn.dev/matsuolab

3 usersがブックマークコメント

コメント

1

記事へのコメント1件

注目コメント
新着コメント

stealthinu すっごく面白かった。Llamaベースの8Bモデルで日本語学習されてるがまず良質な学習データを揃えるところが実はだいぶ本質的問題で難しさがあることがわかる。すごく勉強になる。

2024/05/24 リンク

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

Team「たぬき」開発振り返りメモ2: Scaling lawの壁は高かったという話

はじめにチームリーダーの畠山です。開発が終盤に差し掛かってきたので、備忘録として開発の振り返りメ... はじめにチームリーダーの畠山です。開発が終盤に差し掛かってきたので、備忘録として開発の振り返りメモを書いていきます。前回の記事では、限られたリソースで高性能なモデルを作るために、3つの点に注目しました。モデルアーキテクチャの最適化事前学習用データセットの準備ファインチューニング用データセットの準備今回は、それぞれのアプローチを試した結果について説明します。タイトルにもあるように、Scaling lawの壁は高く、簡単にはうまくいきませんでした。むしろ、うまくいかない条件がわかったという知見が多く得られました[1]。モデルアーキテクチャの工夫: Branch-Train-Merge (BTM)もどきを試す BRTもどき戦略はうまくいったのか? チームでは、事前学習の際にランダムにシャッフルしたデータを使う代わりに、以下のようなカリキュラムを設定しました。各ステージの内容: S

ブックマークしたユーザー

stealthinu2024/05/24

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

設定を変更しましたx