![258億語の日本語コーパスをウェブで公開~国立国語研究所 言語研究や自然言語処理技術開発での基礎資料](https://cdn-ak-scissors.b.st-hatena.com/image/square/63212480471e8a4b991b18706791ddac777c2ad3/height=288;version=1;width=512/http%3A%2F%2Finternet.watch.impress.co.jp%2Fimg%2Fiw%2Flist%2F1047%2F913%2Fnwjc5.png)
ホーム 現代日本語書き言葉均衡コーパス(BCCWJ) 概要 概要 Introduction to BCCWJ 『現代日本語書き言葉均衡コーパス』(BCCWJ)は、現代日本語の書き言葉の全体像を把握するために構築したコーパスであり、現在、日本語について入手可能な唯一の均衡コーパスです。書籍全般、雑誌全般、新聞、白書、ブログ、 ネット掲示板、教科書、法律などのジャンルにまたがって1億430万語のデータを格納しており、各ジャンルについて無作為にサンプルを抽出しています。 すべてのサンプルは長短ふたつの言語単位を用いて形態素解析されており、さら に文書構造に関するタグや精密な書誌情報も提供されています。著作権処理も施されていますので、安心して使っていただけます。 『現代日本語書き言葉均衡コーパス』はオンラインおよびDVDにて二通りの方法で公開しています。商業目的での利用をご希望の場合は、個別に検討
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く