タグ

2012年5月17日のブックマーク (3件)

  • スクリプト言語のバインディング

    概要 各種スクリプト言語 (perl, ruby, python, Java) から, MeCab が提供する形態素解析の機能を利用可能です. 各バインディングは SWIG というプログラ ムを用いて, 自動生成されています. SWIG がサポートする他の言語も 生成可能だと思われますが, 現在は, 作者の管理できる範囲内ということで, 上記の4つの言語のみを提供しております. インストール 各言語バイディングのインストール方法は, perl/README, ruby/README, python/README, java/README を御覧下さい. とりあえず解析する MeCab::Tagger というクラスのインスタンスを生成し, parse (もしくは parseToString) というメソッドを呼ぶことで, 解析結果が文字列として取得できます. MeCab::Tagger のコ

  • MeCabの辞書をはてなキーワードとWikipediaで鍛える at Lunalog – るなろぐ

    LUNA(武藤研究会ソフトウェア研究グループ)の共同更新ブログ作業環境:Lunalice(CentOS 5.5) システムエンコーディング:UTF-8 MeCabのエンコーディング:UTF-8Wikipedia編 SorAmberが作ってくれたwikipedia.csvを使う。 コスト付をして文脈IDを整形しただけで使用完了した。 この方法については後述。 (maintain.rb) ◆はてなキーワード編 各種ページを参照するも、上手く行くものなし。恐らく原因はテキストファイルが汚い(フォーマットに則っていない、記号等が読み込めない)ことだと思う。 最終的に、 http://d.hatena.ne.jp/hirokan55/20100215/p1 のページをベースに使うことにした。 ページの通りに進めることで辞書登録を確認。 しかし、折角はてなキーワードにはふりがな

  • MeCab単語の追加 - 放牧ライフ

    先日のRMeCabのインストールに引き続き、MeCabの辞書へ単語の追加をしました。http://mecab.sourceforge.net/dic.htmlを参考にしています。 システム辞書とユーザ辞書、二つの追加方法がありますが、今回はユーザ辞書への追加をします。 disease.csvというファイルを準備し、このファイルに書かれている単語を辞書に追加します。disease.csvの文字コードはutf-8です。 まず、disease.csvがあるフォルダに移動し、辞書のコンパイルをします。私の場合、辞書も文字コードはutf-8であるため、コンパイルは以下のように実行します。 $ /usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/ipadic -u disease.dic -f utf-8 -t ut

    MeCab単語の追加 - 放牧ライフ