タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

dictionaryとmecabに関するmuddydixonのブックマーク (2)

  • MeCab の形態素解析誤りを修正する生起コストの求め方

    「かつおたたき」、「りんごジュース」、「ロース肉薄切り」を MeCab + IPA 辞書で形態素解析すると以下のようになります。 % mecab かつおたたき かつ 接続詞,*,*,*,*,*,かつ,カツ,カツ お 接頭詞,名詞接続,*,*,*,*,お,オ,オ たたき 名詞,一般,*,*,*,*,たたき,タタキ,タタキ EOS りんごジュース りん 副詞,助詞類接続,*,*,*,*,りん,リン,リン ご 接頭詞,名詞接続,*,*,*,*,ご,ゴ,ゴ ジュース 名詞,一般,*,*,*,*,ジュース,ジュース,ジュース EOS ロース肉薄切り ロース 名詞,一般,*,*,*,*,ロース,ロース,ロース 肉薄 名詞,サ変接続,*,*,*,*,肉薄,ニクハク,ニクハク 切り 名詞,接尾,一般,*,*,*,切り,ギリ,ギリ EOS 日人の感覚とはだいぶずれた結果になってしまっていますね!人間であれ

    MeCab の形態素解析誤りを修正する生起コストの求め方
  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

  • 1