タグ

ブックマーク / jetbead.hatenablog.com (1)

  • 形態素解析器のデコーダ部分を作ってみた - Negative/Positive Thinking

    はじめに 形態素解析器のデコーダ部分を超簡単に書いてみた。 いつも通り速度などは考えずに流れを学ぶために書いているので遅い。。。 あと「辞書の構築(コスト計算)」と「未知語処理」ができればそれっぽいものができそうな予感。 速度の改善などは、double arrayにしたりバイナリ読み込みにしたり。。。 やっていること 辞書ファイルの読み込み 単語辞書 隣接可能性行列 解析したい文を入力する ラティスの構築 解の探索 ビタビアルゴリズムでコストが最小のパスを探索 パスの単語リストを出力する 辞書の準備 辞書のダウンロード NIST NAIST Japanese Dic(for MeCab)を使わせていただきます 「mecab-naist-jdic-0.6.3b-20111013」 http://sourceforge.jp/projects/naist-jdic/ ちょっと修正 文字コード変

    形態素解析器のデコーダ部分を作ってみた - Negative/Positive Thinking
    mamoruk
    mamoruk 2011/11/02
    NISTはアメリカの組織
  • 1