タグ

Mecabに関するiguchi7のブックマーク (2)

  • 形態素解析

    語文を単語に分割することができれば、 情報検索システムにおける索引語の抽出などに応用が可能である。 日語は欧米の言語と違い、単語と単語の間に空白がないため、 単語の切り出しは容易ではない。 日語文を単語に分割するためには形態素解析 (morphological analysis) が必要となる。 形態素解析システム 形態素解析システムと呼ばれるソフトウェアを用いると、 日語文が単語辞書と文法規則によって正しく単語に分割される。 また、各単語の品詞情報が得られるほか、 用言 (動詞、形容詞など) の活用形を基形(原形、終止形)に戻してくれる。 日形態素解析システムのリスト 形態素解析システムのうち、日語に対応していて、 オープンソースのものを挙げる。 MeCab 最も知名度のある形態素解析システム。下記の茶筌を設計し直したもの。茶筌より高速だが、一部機能が限定されている。C

  • Python形態素解析ライブラリ3つを徹底比較 - Qiita

    はじめに 形態素解析ツールは数多く存在するが,それぞれの特徴を理解した上で利用することが重要である. 今回はPythonから利用できる形態素解析ツール3つを比較してみた. MeCab CRF(Conditional Random Fields)を用いたパラメータ推定 判別精度,実行速度ともに高く,標準的な使い方をするのであればMeCabを使うのが間違いないと思われる.ただしライブラリはちょっと重い. In[1]: import MeCab In[2]: mecab = MeCab.Tagger() In[3]: %time print mecab.parse("りんごは人間の身体にとって大変良い効果があることが立証されています") りんご 名詞,一般,*,*,*,*,りんご,リンゴ,リンゴ は 助詞,係助詞,*,*,*,*,は,ハ,ワ 人間 名詞,一般,*,*,*,*,人間,ニンゲン,ニン

    Python形態素解析ライブラリ3つを徹底比較 - Qiita
  • 1