[B! mecab][ruby] milk1000ccのブックマーク

milk1000cc id:milk1000cc

mecabとrubyに関するmilk1000ccのブックマーク (2)

Ruby + Mecab で日本語テキストから頻出キーワードを抽出する
こんにちは。Sleipnir Mobile for Android 開発担当の西田です。最近 Android アプリで、日本語テキストから頻出キーワードを抽出したいなあ等といったことを考えており、ちょっと調べてみました。まずは日本語の形態素解析ライブラリの Mecab を使おうと思いつくわけですが、これをアプリに組み込むにはちょっと辞書のサイズが大きすぎる感じです。(50MB 以上！）なのでどっかのサーバーで API を用意してやるのが良さげな感じです。 Mecab には各種スクリプト言語のバインディングが用意されているので、今回は Ruby でやることにしました。まずは Mecab + Ruby バインディング + 辞書をインストールします。Ubuntu 10.04 だと以下のようなコマンドでインストールできます: sudo aptitude install ruby1.9.1
milk1000cc 2011/10/24
ruby

mecab
リンク
Coreserverに最初からMeCabが入ってた件
ひどい、今気がついた。自力でMeCab入れて、MeCabのRuby用バインディング入れるところまではＯＫ。でもいざ使ってみると毎回コア吐くし、意味がわからんと思ってたら… なんか最初からMeCabとRuby用バインディング入ってるんですけど！しかも最初から入ってるやつがCore吐いてるっぽい (追記) Core吐いてる理由は、使っている辞書(UNIDIC)にあった可能性が。下に詳しく追記。使えないもの入れてるんじゃねーよ… というわけなので、デフォで入ってるMeCabのバージョンは最新の0.98だけど、自分で入れ直した方がよさそうです。まずはMeCab本体 wget http://sourceforge.net/projects/mecab/files/mecab/0.98/mecab-0.98.tar.gz/download cd mecab-0.98 ./configure -
milk1000cc 2010/12/12
ruby

mecab
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx