エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
Swallow Corpus – TokyoTech-LLM
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Swallow Corpus – TokyoTech-LLM
Swallow Corpusは東京工業大学情報理工学院の岡崎研究室で開発された大規模なウェブテキストコーパスで... Swallow Corpusは東京工業大学情報理工学院の岡崎研究室で開発された大規模なウェブテキストコーパスです。Common Crawlから配布されているアーカイブ(2020年から2023年にかけて収集された21スナップショット分、約634億ページ)から日本語のテキストを独自に抽出・精錬し、約3,121億文字(約1.73億ページ)からなる日本語ウェブコーパスを構築しました。この規模は、CC-100 (約258億文字)、mC4(約2,397億文字)、OSCAR 23.10(約740億文字)を抜き、日本語の言語モデルの学習コーパスの中で、商用利用が可能なものとしては最大となります。 Swallow Corpusのの研究開発は、国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)の「次世代人工知能・ロボットの中核となるインテグレート技術開発」プロジェクト (JPNP18002) の「