zenn.dev[B!]新着記事・評価 - はてなブックマーク

『zenn.dev』

Team「たぬき」開発振り返りメモ2: Scaling lawの壁は高かったという話
3 users
zenn.dev/matsuolab

はじめにチームリーダーの畠山です。開発が終盤に差し掛かってきたので、備忘録として開発の振り返りメモを書いていきます。前回の記事では、限られたリソースで高性能なモデルを作るために、3つの点に注目しました。モデルアーキテクチャの最適化事前学習用データセットの準備ファインチューニング用データセットの準備今回は、それぞれのアプローチを試した結果について説明します。タイトルにもあるように、Scaling lawの壁は高く、簡単にはうまくいきませんでした。むしろ、うまくいかない条件がわかったという知見が多く得られました[1]。モデルアーキテクチャの工夫: Branch-Train-Merge (BTM)もどきを試す BRTもどき戦略はうまくいったのか? チームでは、事前学習の際にランダムにシャッフルしたデータを使う代わりに、以下のようなカリキュラムを設定しました。各ステージの内容: S
- テクノロジー
- 2024/05/24 18:08

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx