タグ

MeCabに関するkouhei0128のブックマーク (2)

  • 日本語の形態素解析以外にもMeCabを使う、またはMeCabの辞書の仕組み - Write and Run

    みなさん、和布蕪は好きですか。私はべたことがありません。 さて、MeCab は優秀な日語の形態素解析機として有名ですが、みなさんは MeCab をそれ以外の用途で使ったことがありますか。わず嫌いは感心できませんねぇ。 日語の形態素解析機としての振る舞いは MeCab のほんの一面に過ぎません。MeCab はいつも読んでる IPAdic が何語の辞書かなんて知りませんし、日語の文法がハードコートされているわけでもありません。MeCab は、振る舞いの全てを辞書に決められているといっても過言ではないほど、辞書によって様々な「言語」を解析できるようになります。ここでいう「言語」とは、記号の並びの規則、またはその規則に則って並べられた記号列のことだと思ってください。つまり、「辞書」は言語の語彙だけでなく、規則を記述する能力を持っているのです。 MeCab の「辞書」に含まれる情報に軽く触

    日本語の形態素解析以外にもMeCabを使う、またはMeCabの辞書の仕組み - Write and Run
  • PythonでのMeCabを速くするtips - Qiita

    ちゃお... Python Advent Calendar 2015 18日目の記事です... Pythonといったらデータサイエンスに強いし、データサイエンスといったら形態素解析が必要になることがあるし、形態素解析といったらMeCabだし――ということで、今回はPythonでのMeCabの処理を少しでも速くする豆知識を共有したいと思います! parseToNodeを捨てよ parseを使おう MeCabの解析結果を得るにはparseとparseToNodeの2つのメソッドがあります。 わたしはもっぱらparseToNode使ってたのですが、なんか遅いなーって思って、当に遅いのか確かめるために処理時間測ってみました。現実的な設定でやった方が実用的だと思ったので、今回は夢野久作のドグラマグラから名詞を抽出することにします。 コード import MeCab tagger = MeCab.T

    PythonでのMeCabを速くするtips - Qiita
  • 1