エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
大規模英語コーパス「The Pile: An 800GB Dataset of Diverse Text for Language Modeling」を要約した - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
大規模英語コーパス「The Pile: An 800GB Dataset of Diverse Text for Language Modeling」を要約した - Qiita
大規模英語コーパス「The Pile: An 800GB Dataset of Diverse Text for Language Modeling」を要約したN... 大規模英語コーパス「The Pile: An 800GB Dataset of Diverse Text for Language Modeling」を要約したNLPAIcorpusLLM 三行で要約 大規模言語モデルの学習にはデータセットの多様性を増やすのが良い。 多様性が増えると、モデルの知識も一般化能力も向上できる。 だから、いろんなデータ集めて、英語のテキストコーパス (825 GB) を作ったよ。 対象読者 大規模(小規模)言語モデルを作ろうとしている人 課題:データの需要の増加と多様性の重要性 大規模言語モデル (LLM) の性能を上げるには大量のテキストで学習をすることが重要。そのため、今後はデータの重要性は更に増していく。 最近の LLM は Common Crawl からデータを取得することが多い。Common Crawl のデータで学習すると性能が向上するのは確かだが、