タグ

mecabに関するniamのブックマーク (2)

  • 形態素解析器のデコーダ部分を作ってみた - Negative/Positive Thinking

    はじめに 形態素解析器のデコーダ部分を超簡単に書いてみた。 いつも通り速度などは考えずに流れを学ぶために書いているので遅い。。。 あと「辞書の構築(コスト計算)」と「未知語処理」ができればそれっぽいものができそうな予感。 速度の改善などは、double arrayにしたりバイナリ読み込みにしたり。。。 やっていること 辞書ファイルの読み込み 単語辞書 隣接可能性行列 解析したい文を入力する ラティスの構築 解の探索 ビタビアルゴリズムでコストが最小のパスを探索 パスの単語リストを出力する 辞書の準備 辞書のダウンロード NIST NAIST Japanese Dic(for MeCab)を使わせていただきます 「mecab-naist-jdic-0.6.3b-20111013」 http://sourceforge.jp/projects/naist-jdic/ ちょっと修正 文字コード変

    形態素解析器のデコーダ部分を作ってみた - Negative/Positive Thinking
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • 1