タグ

ブックマーク / www.mwsoft.jp (2)

  • MeCabの辞書をカスタマイズする | mwSoft

    概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。 今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成(mecab-dict-index)する方法と、文章の解析結果を用意してそれを利用して学習(mecab-cost-train)する方法。 Linuxで実行。Windowsは知らない。 単語追加用のCSVファイルを作成する まずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。 やり方は公式サイトに載っている。 今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク 名詞,一般,*,

    kshimo69
    kshimo69 2012/06/29
  • LinuxにMecabとmecab-rubyをインストールする | mwSoft

    概要 我が家のLinux機(Fedora10)にMecabを入れた際のログです。 入れたものは以下。 MeCab0.98 mecab-ipadic-2.7.0-20070801 mecab-naist-jdic-0.6.1-20090630 unidic-mecab-1.3.12 mecab-ruby-0.98 以上5つです。 ここでは入れた際に打ったコマンドと、簡単なサンプルを載せておきたいと思います。 MeCabのインストール ダウンロードはこちら http://sourceforge.net/projects/mecab/files/ Linuxであれば、mecab-x.xx.tar.gz(x.xxはバージョン番号)を持ってきます。持ってきたら解凍してinstall。 $ tar xzvf mecab-x.xx.tar.gz $ cd mecab-x.xx $ ./configure

  • 1