エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
国内最大規模で商用利用な日本語コーパス ABEJA-CC-JAの公開と使い方 - ABEJA Tech Blog
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
国内最大規模で商用利用な日本語コーパス ABEJA-CC-JAの公開と使い方 - ABEJA Tech Blog
ABEJAでデータサイエンティストをしている服部です。 ABEJAは経産省主催のGENIACプロジェクト1期に採択... ABEJAでデータサイエンティストをしている服部です。 ABEJAは経産省主催のGENIACプロジェクト1期に採択され、その中で大規模言語モデルの開発を行っていました。 その際にモデルの開発と同時に日本語用の学習コーパスを構築しました。 www.abejainc.com そして、この構築した日本語用の大規模言語コーパス、すなわち言語モデル用の学習データセット ABEJA-CC-JA を公開しました! 商用利用も可能です。 ここでは、公開したデータセットについてご紹介します。 構築したデータセット ABEJA-CC-JAについて 元データ: Common Crawl 2019年から2023年までを対象に、計41のtimestamp データセットのサイズ : 約430Bトークン Mixtral8x7bのtokenizerでのtoken数 約407B (4070億)文字 日本語公開コーパスとして