LLMのデータセットをまとめました。 1. 事前学習データセット1-1. Text・Wikipedia (ja) ・fujiki/wiki40b_ja ・llm-jp-corpus-v2 (ja) ・llm-jp-corpus-v2 ・shisa-pretrain-en-ja-v1 (ja) ・augmxnt/shisa-pretrain-en-ja-v1 ・youlery (ja) ・ce-lery/mistral-3b-dataset ・ayousanz/OSCOR-2301-ja-cleaned ・ayousanz/c4-ja-cleaned ・Common Crawl (multilingual) ・Wikipedia (en) ・Wiki Demo (en) ・RefinedWeb (en) ・RedPajama V2 (en) ・Pile (en) ・SkyPile (zh)