タグ

ブックマーク / sucrose.hatenablog.com (1)

  • 日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm

    前にこんなツイートをしたけどもうちょっとちゃんとメモっておく ゆるふわカジュアル勢()なので内容に間違ってる点があったら教えてくださると嬉しいです 勝手なイメージだと、MeCab →一番使われてる 。速い。辞書を弄くるのが簡単。いろいろ移植されてる。Juman→出力が詳しい。代表表記に正規化できる。KNPを使うときはこれ。KyTea→新しくていろいろ更新されてる。読みの推定ができる。部分的タグ付けによるドメイン適応ができる。— 無限猿(id:sucrose)@12月病 (@Scaled_Wurm) October 22, 2014 大雑把に言うと形態素解析では文章を単語+品詞の列に分解する いわゆる学校でならった文法とは違う文法を使っているので注意が必要 ただし形態素解析器によって品詞体系や辞書に載っている単語が異なる 形態素解析器では単語や品詞の列にコストが計算できるようになっていて、そ

    日本語形態素解析器のイメージ - 唯物是真 @Scaled_Wurm
    sasashin
    sasashin 2014/12/22
    安定の kuromoji(取り上げられないという意味で)。
  • 1