mecab の ruby バインディング、mecab-ruby をインストールします。 2007-11-10 Leopard でのビルドを追加 まえがき インストール 設定 使い方 関連するページはこちら、 Mail::BogoFilter —- bogofilter のチューニングを紹介しています。日本語による前処理、DB の効率的な鍛え方、spam-cutoff の設定の考え方等に触れています。 BogofilterNihongo —- bogofilter-nihongo.rb で、メールの事前処理をして、bogofilter に喰わせています。 MeCab —- mecab-ruby は、mecab の ruby バインディングです。 MacOSX & Cygwin on Windows のソフトの事 Windows & Mac で使っているソフト —- ソフトのインストールや設定
ライブラリのインターフェイスが変なときにGeneratorを使ってましにできることがある. MeCabのRubyバインディングのインターフェイスがださくて,使いにくかった. 分かち書きして,名詞だけ表示するようなとき,普通に書くとこうなる. c = MeCab::Tagger.new("-O wakati") node = c.parseToNode(text) while node do puts node.surface if node.feature =~ /^名詞/ node = node.next end whileとか,node = node.nextとかが,Rubyっぽくない. Generatorに入れて1個ずつ返すようにすると,Enumlatorを使えるようになって,だいぶましになる. c = MeCab::Tagger.new("-O wakati") node = c.
Ruby で Mecab という形態素解析エンジンを使ってみました。 インストール ソースからインストールしないといけないかなと思ったらどうやら Mac なら MacPorts で簡単にインストールできるようで、 $ sudo port install mecab $ sudo port install mecab-ipadic-utf8 $ sudo port install rb-mecab これだけ。かと思ったらなぜか文字化けを起こしてしまい、調べてみると辞書ファイルの指定が UTF-8 になっていませんでした。 /opt/local/etc/mecabrc をエディタで開いて、 $ sudo vim /opt/local/etc/mecabrc dicdir を書き換えました。 -dicdir = /opt/local/lib/mecab/dic/ipadic +dicdir =
2009年09月21日01:32 Ruby MeCab + Ruby で形態素解析(わかち書き) 形態素解析という技術をご存知でしょうか。日本語を最小単位で単語ごとに分割し、それぞれの単語が名詞なのか動詞なのかを判定してくれるものです。例えば「今日は良い天気ですね」を形態素解析するとこのような結果が得られます。 今日 名詞,副詞可能,*,*,*,*,今日,キョウ,キョー は 助詞,係助詞,*,*,*,*,は,ハ,ワ 良い 形容詞,自立,*,*,形容詞・アウオ段,基本形,良い,ヨイ,ヨイ 天気 名詞,一般,*,*,*,*,天気,テンキ,テンキ です 助動詞,*,*,*,特殊・デス,基本形,です,デス,デス ね 助詞,終助詞,*,*,*,*,ね,ネ,ネ EOS さらに、文章を単語ごとにスペース区切りにする処理をわかち書きといいます。こんな感じです。 今日 は 良い 天気 です ね この処理は日
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く