このページでは、ウェブデータ、現代日本語書き言葉コーパスから作成した音声認識用と仮名漢字変換用のN-gramを配布しています。 コーパス N-gram 音声認識用N-gram 仮名漢字変換用N-gram ダウンロード コーパス ここでは、N-gramを作成するために利用したコーパスについて説明します。 ウェブコーパス: ウェブコーパスは京都大学 黒橋・河原研究室において、2010年12月~2011年3月にクロールし、文抽出したコーパスの一部です。N-gramの作成には、このうちの2万ページ、20万ページ、200万ページ、3000万ページを用いました。 現代日本語書き言葉コーパス: 現代日本語書き言葉コーパス(BCCWJ)は雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスです。 コーパスの統計情報 各コーパスに関する文数、単語数、文字数について次の