タグ

mecabに関するkoko1000banのブックマーク (4)

  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

    突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語

  • ClojureからMeCabを使う - 壊れた計算機

    MeCabのJavaバインディングを利用する。replからいきなり使用してもエラーが出て動かないので、compileしたlib経由で使用する。コンパイルは以下のようにすると出来た。 classpathにMeCab.jar 環境変数LD_LIBRARY_PATHにlibMeCab.so(またはdylib) 下のようなnsを(compile mecab)のようにコンパイルする。 (ns mecab (:import (org.chasen.mecab MeCab Tagger Node))) (System/loadLibrary "MeCab") (defn mecab-seq [s] (letfn [(node-parse [node] (when node (lazy-seq (cons (vec (cons (.getSurface node) (re-seq #"[^,]+" (.g

    ClojureからMeCabを使う - 壊れた計算機
  • mac portでインストールしたMeCabはマルチスレッドでうまく動かない - yasuhisa's blog

    雑誌のファイルから機械学習に投げるための素性作成C++のプログラムを書いているが、時間がかかりまくるのでマルチスレッドにしている。が、ローカル環境ではうまくいくのに、リモートではうまくいかないという困った事態に遭遇。 gdb使って死んだところでwhereとかしてみるとMeCab::Viterbi::connectNormalというところで死んでいた。なんでかな思いながら調べていると、リモートでは $ mecab -v mecab of 0.96 $ which mecab /opt/local/bin/mecab で、ローカルでは $ mecab -v mecab of 0.98pre2 $ which mecab /usr/local/bin/mecab となっていた。そういえばリモートはportで入れたMeCabで、ローカルはソースから入れたものだった。 マルチスレッド環境で辞書を開く

    mac portでインストールしたMeCabはマルチスレッドでうまく動かない - yasuhisa's blog
  • MeCabで住所抽出 (OKILab.jp開発日記)

    「MeCab 0.90 だけをつかって Auto Link」を参考に、MeCabを使って住所抽出してみます。 元データとして国土交通省国土計画局国土情報整備室の街区レベル位置参照情報を利用します。ダウンロードページから、今回は平成18年度版の大阪府全域のデータ(27000-05.1a.zip)をダウンロードしました。 $unzip 27000-05.1a.zip Archive: 27000-05.1a.zip Length Date Time Name -------- ---- ---- ---- 14907 04-10-07 16:07 md_27_2006.xml 24563015 06-11-07 21:01 27_2006.csv 3325 01-22-07 20:00 format_2006.html -------- ------- 24581247 3 files $he

  • 1