エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
大規模言語モデルTanuki-8B, 8x8Bの位置づけや開発指針など
*チームでの評価. **13Bは推論時のアクティブパラメータ数、47Bは総パラメータ数をあらわす。 (Nejumi l... *チームでの評価. **13Bは推論時のアクティブパラメータ数、47Bは総パラメータ数をあらわす。 (Nejumi leaderboard NEOを使いチーム内で評価。GPT-4の採点不具合で評価が-1となった項目は採点から除外した。) 2.2 開発アプローチ Tanukiの開発では、以下のような革新的なアプローチを採用しました: データ合成: これまで主流とされてきたインターネットデータ(Common Crawl)の過度の依存から脱却し、対話や作文に特化した合成データを活用 対話・指示データの合成: 人工的に生成した対話および指示データを事前学習に組み込み モデルのアップサイクリング: 8x8Bモデルはゼロから作るのではなく、先に構築した8Bモデルを素材に用いるアップサイクリングと呼ばれるアプローチをとることで、限られた計算リソースから高性能なモデルを得ることに成功 効率的な試行錯誤: