タグ

n-gramとコーパスに関するrin51のブックマーク (2)

  • 言語モデル配布ページ

    このページでは、ウェブデータ、現代日語書き言葉コーパスから作成した音声認識用と仮名漢字変換用のN-gramを配布しています。 コーパス N-gram 音声認識用N-gram 仮名漢字変換用N-gram ダウンロード コーパス ここでは、N-gramを作成するために利用したコーパスについて説明します。 ウェブコーパス: ウェブコーパスは京都大学 黒橋・河原研究室において、2010年12月~2011年3月にクロールし、文抽出したコーパスの一部です。N-gramの作成には、このうちの2万ページ、20万ページ、200万ページ、3000万ページを用いました。 現代日語書き言葉コーパス: 現代日語書き言葉コーパス(BCCWJ)は雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスです。 コーパスの統計情報 各コーパスに関する文数、単語数、文字数について次の

  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • 1