タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

dictionaryとmecabに関するmanabouのブックマーク (2)

  • 日本語の形態素解析以外にもMeCabを使う、またはMeCabの辞書の仕組み - Write and Run

    みなさん、和布蕪は好きですか。私はべたことがありません。 さて、MeCab は優秀な日語の形態素解析機として有名ですが、みなさんは MeCab をそれ以外の用途で使ったことがありますか。わず嫌いは感心できませんねぇ。 日語の形態素解析機としての振る舞いは MeCab のほんの一面に過ぎません。MeCab はいつも読んでる IPAdic が何語の辞書かなんて知りませんし、日語の文法がハードコートされているわけでもありません。MeCab は、振る舞いの全てを辞書に決められているといっても過言ではないほど、辞書によって様々な「言語」を解析できるようになります。ここでいう「言語」とは、記号の並びの規則、またはその規則に則って並べられた記号列のことだと思ってください。つまり、「辞書」は言語の語彙だけでなく、規則を記述する能力を持っているのです。 MeCab の「辞書」に含まれる情報に軽く触

    日本語の形態素解析以外にもMeCabを使う、またはMeCabの辞書の仕組み - Write and Run
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • 1