Page Top 日本語コーパスの問題点は何か 日本語コーパスの最大の問題点は、日本語の全体をバランスよく反映したコーパスがないことです。例えば、新聞社の中には過去の記事を全文データベースとして有償で公開しているところがあり、その総量は数億語にのぼります。しかし、新聞記事だけでは、たとえ対象を書き言葉だけに限るとしても、日本語の全体像を把握することはできません。雑誌記事の日本語は新聞記事とはどこかで明らかに異なっていますし、文学作品の日本語については言うまでもありません。小説などの文学作品については「青空文庫」関係者の努力によって、数多くの作品が万人に利用可能な形で公開されています。しかし、これらはいずれも著作権が消滅した作品ですから、少なくとも50年以上昔の日本語です。 現代日本語書き言葉の全体を把握するためのコーパスには、私たちの生きているこの時代に生産され、流通している「現代」日本語