タグ

mecabに関するru_shalmのブックマーク (3)

  • Ruby + Mecab で日本語テキストから頻出キーワードを抽出する

    こんにちは。Sleipnir Mobile for Android 開発担当の西田です。 最近 Android アプリで、日語テキストから頻出キーワードを抽出したいなあ等といったことを考えており、ちょっと調べてみました。 まずは 日語の形態素解析ライブラリの Mecab を使おうと思いつくわけですが、これをアプリに組み込むにはちょっと辞書のサイズが大きすぎる感じです。(50MB 以上!)なのでどっかのサーバーで API を用意してやるのが良さげな感じです。 Mecab には各種スクリプト言語のバインディングが用意されているので、今回は Ruby でやることにしました。 まずは Mecab + Ruby バインディング + 辞書をインストールします。Ubuntu 10.04 だと以下のようなコマンドでインストールできます: sudo aptitude install ruby1.9.1

    Ruby + Mecab で日本語テキストから頻出キーワードを抽出する
  • はてなキーワードからMecCab辞書を生成する(Ruby版)

    文脈IDは-1を指定すれば自動採番してくれるという噂だったのですが、実行したら「自動で探したけど、対応するのが見つからなかったよ」と言われた為(文字コードの問題かな)、自前でシステム辞書ディレクトリ内の「left-id.def」と「right-id.def」を探して、それっぽいIDを拾ってきました(当にこの方法で良いのか未確認)。 辞書によってIDは変わってきて、IPA辞書の「名詞,一般」は、我が家の環境では1285になっていました。バージョンによっても違う可能性もあるので注意が必要です。 読み・発音については、はてなのファイルの読みは全て平仮名で記述されているので、NAISTの辞書に合わせる為に片仮名に変換して登録します。発音は来「アマクサシロー」になるべきですが、その辺は変換してると面倒なのでこのままで。 参考URLでは、CSVの末尾に「はてなキーワード」と入れて、はてなの辞書が使

  • Ubuntuに形態素解析(ChaSen,Mecab)をインストール - taoru's memo

    形態素解析も扱いたくなったのでインストール Chasen、MeCab、Igoやら色々あるけれど、 Chasen の方が MeCabより早い(?) いや、でもMeCabの方が早いって書いてあるし…こことか もう両方インストールしておく。 $ apt-cache search chasenで、chasenが含まれるパッケージ検索できるっぽい。 たくさんでるけど、 $ sudo apt-get install chasenで必要なもの一式はインストールされるようだ。 次、MeCab $ sudo apt-get install mecab libmecab-devmecab(0.97-1)が入った。 辞書データ(utf8の)もいれる $ sudo apt-get install mecab-ipadic-utf8 mecab-jumandic-utf8上記Mecabインストールを全部まとめて $

    Ubuntuに形態素解析(ChaSen,Mecab)をインストール - taoru's memo
  • 1