タグ

n-gramに関するrin51のブックマーク (3)

  • 第6回 N-gramと形態素解析との比較 | gihyo.jp

    これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要 はじめに、2つの手法をおさらいしてみます。 形態素解析 検索対象のテキストを形態素解析を行い分かち書きを行う 分かち書きした単位を見出し語として転置インデックスを作成する 転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する 分解した文字列片を見出し語として転置インデックスを作成する 検索語をN文字単位の文字列片に分け検索を行う 文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能 大きな違いは、「⁠転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う

    第6回 N-gramと形態素解析との比較 | gihyo.jp
  • 言語モデル配布ページ

    このページでは、ウェブデータ、現代日語書き言葉コーパスから作成した音声認識用と仮名漢字変換用のN-gramを配布しています。 コーパス N-gram 音声認識用N-gram 仮名漢字変換用N-gram ダウンロード コーパス ここでは、N-gramを作成するために利用したコーパスについて説明します。 ウェブコーパス: ウェブコーパスは京都大学 黒橋・河原研究室において、2010年12月~2011年3月にクロールし、文抽出したコーパスの一部です。N-gramの作成には、このうちの2万ページ、20万ページ、200万ページ、3000万ページを用いました。 現代日語書き言葉コーパス: 現代日語書き言葉コーパス(BCCWJ)は雑誌、新聞、白書、教科書、国会議事録、インターネット上の書き言葉などを対象としたコーパスです。 コーパスの統計情報 各コーパスに関する文数、単語数、文字数について次の

  • N-gram コーパス - 日本語ウェブコーパス 2010

    概要 ウェブページに出現する形態素 N-gram と文字 N-gram を頻度とともに収録したコーパスです.各 N-gram コーパスには,頻度 10/100/1000 以上の 1-gram から 7-gram までが収録されています. N-gram コーパスの構築においては,Google N-gram コーパスと同様の前処理を施しています.句点・感嘆符・疑問符を文の区切りとして利用しているので,「モーニング娘。」や「Yahoo!」などの固有名詞については,不適切な文の区切りがおこなわれています.また,文の区切りは削除するようになっているため,コーパス中に句点・感嘆符・疑問符は出現しません. 形態素 N-gram コーパス,文字 N-gram コーパスともに,文境界マーク(<S>,</S>)は採用していますが,未知語トークン(<UNK>)は採用していません.また,文字 N-gram コーパ

  • 1