エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Cosmopedia: how to create large-scale synthetic data for pre-training Large Language Models
We find less than 4 contaminated samples for MMLU, OpenBookQA and WinoGrande. Training stack We t... We find less than 4 contaminated samples for MMLU, OpenBookQA and WinoGrande. Training stack We trained a 1B LLM using Llama2 architecure on Cosmopedia to assess its quality: https://huggingface.co/HuggingFaceTB/cosmo-1b. We used datatrove library for data deduplication and tokenization, nanotron for model training, and lighteval for evaluation. The model performs better than TinyLlama 1.1B on ARC