タグ

mecabに関するxjukaのブックマーク (3)

  • 83's : MeCabの辞書作成補助

    形態素解析器MeCabの 辞書を自分で作る場合、動詞や形容詞など活用する品詞については 自分で活用を書かなければいけないんですが、 激しく面倒なのでこれを自動化するやつを作ってみた。 ( ・∀・)つ[katsuyou.tar.gz] このプログラムを使うには、別途ローマ字ひらがな変換ライブラリ suikyoと、 茶筌に(多分)付属しているcforms.chaが必要です。 まー基的にはcforms.chaでなくても、同じフォーマットで、かつ活用形の中に「基形」が 入っていれば動くはずです。 あとRubyも必須です。 katsuyou.rbは、入力されたMeCabの辞書の中で活用できるものがあるとそれを活用展開します。 だからあらかじめ1つだけ書いておきます。 ちなみにフォーマットはこう。 表層形,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音 例

  • MeCabの未知語(unk.def)と戯れた記録 : mwSoft blog

    今年の初めくらいにメモして後でまとめようと思っていた話なんだけど、さっぱりまとめる暇が取れないまま放置されていたので、メモをそのままブログに貼っておく。 MeCab(辞書はNAIST)で遊んでいたら、スクエニが以下のように解析された。 echo スクエニ | mecab スクエニ 感動詞,*,*,*,*,*,* EOS 感動詞になっている。出来れば名詞が良いなぁと思う。 スクエニは未知語として判定されていると思われる。 未知語判定されているかどうかは、-F%Sすれば分かる。 1が出れば未知語、0は辞書にある語。 echo スクエニ魔法 | mecab -F"%m\t%s\n" スクエニ 1 魔法 0 EOS 未知語については「/usr/local/lib/mecab/dic/naist-jdic/unk.def」を見れば分かる。 KATAKANA,1358,1358,3869,名詞,一般,

    xjuka
    xjuka 2010/12/15
  • mecab-gree-20060411.ppt

    MeCab 汎用日形態素解析エンジン 工藤 拓 アジェンダ 形態素解析技術 辞書引きのアルゴリズム、データ構造 曖昧性の解消 MeCab の開発裏話 歴史 設計方針 汎用テキスト変換ツールとしての MeCab 恐ろしく汎用的! 「意外な」使い方 これから 形態素解析 文を単語に区切り、品詞を同定する処理 全文検索 Spam フィルタリング 人工無能... 以下の3つの処理 単語への分かち書き(tokenization) 活用語処理(stemming, lemmatization) 品詞同定(part-of-speech tagging) すもも 名詞,一般,*,*,*,*,すもも,スモモ,スモモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*,もも,モモ,モモ も 助詞,係助詞,*,*,*,*,も,モ,モ もも 名詞,一般,*,*,*,*

  • 1