You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
誰が何のために使うのかよくわからないけど,新しいfluentd plugin書きました. fluntdに流れてくる日本語のデータをmecabに食わせて形態素解析結果をもう一度fluentdに流すプラグインです. install Gemfileに以下を書いて,bundle installすればいいです gem 'fluent-plugin-mecab', git: 'git://github.com/katsyoshi/fluent-plugin-mecab.git' 使い方は簡単です.以下のように設定します <source> type forward </source> <match mikutter.**> type copy <store> type stdout </store> <store> type mecab key message tag mecab.meacab </st
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
概要 辞書への単語追加には, 二つの方法があります. システム辞書への追加 ユーザ辞書への追加 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mecab-ipadic があるディレクトリに移動 foo.csv というファイルを作成 (拡張子が .csv なら何でも可) foo.csv に単語を追加 辞書の再コンパイル + インストール % /usr/local/libexec/mecab/mecab-dict-index -f euc-jp -t euc-jp % su # make install -f charset: CSVの文字コード -t charset: バイナリ辞書の文字コード 例: utf-8の辞書を作成する例 % /usr/local/libexec/mecab/mecab-dict-
概要 MeCab0.994で再学習機能が入ったので、その辺りも含めてMeCabの辞書カスタマイズ方法を洗ってみる。 今回取り扱うのは、CSV形式で新しい単語の情報を記述して辞書を生成(mecab-dict-index)する方法と、文章の解析結果を用意してそれを利用して学習(mecab-cost-train)する方法。 Linuxで実行。Windowsは知らない。 単語追加用のCSVファイルを作成する まずはCSVファイルを手書きして、MeCabの辞書に新しい単語を追加してみる。 やり方は公式サイトに載っている。 今回は例として「アメリカの大統領の名前くらい登録しておきたいよね」ということでバラクとオバマという2つの固有名詞を追加してみる。両単語はIPA辞書では未知語になっている。 $ echo "バラク・オバマ" | mecab -U"%M\t%H\t未知語\n" バラク 名詞,一般,*,
突然ですが,mecabの辞書 (mecab-ipadic) をデフォルトのまま使って,mecab意外と使えねぇとか文句言ってる悪い子はおらんかね? mecab-ipadic は比較的お行儀のよい日本語をベースに作られているので,そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し,学習させるといった手法を使うのが正攻法だと思いますが,とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。 人間の話す言語には,動詞の語幹や名詞には日々新しく語彙が増えるけど,助詞や活用のルールは簡単には変化しない,という特性があります。特に「いま最もつぶやかれている単語ランキング」といった集計をするような場合は,名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。 ただ,辞書への単語追加はここにある通り簡単にできるのですが,単語
HadoopにはWordCountのサンプルがついてきますが、英語テキスト用です。日本語を対象にする場合、MeCabを使って単語分割を行いたいところです。 MeCabにはSWIGのJavaバインディングが用意されていて、JNI経由でMeCabの機能を使えるようになります。このときのMeCabのエンコーディングはUTF-8が前提となります。 http://mecab.sourceforge.net/bindings.html このmecab-javaのMacPortsを現在登録申請中です。これを使うと、/opt/local/lib/libmecab-java.dylib と /opt/local/share/java/mecab.jar がインストールされることになります。 $ sudo port selfupdate $ sudo port install mecab +utf8 $ su
これに検索コマンドをつけたのでメモ。MeCabを選んだのは気分です。 User Streamsから取得する際にそのままのJSONをMongoDBに入れてたのを、MeCabかませた配列も入れるコードを追加(過去ログもバッチ処理した)。 if status['text'] status['keywords'] = MeCab::Tagger.new("-Owakati").parse(status['text']).split(' ') end あとインデックスを張る $ mongo > use userstreams > db.status.ensureIndex({keywords: 1}) 検索する関数 def search(keyword) keywords = MeCab::Tagger.new("-Owakati").parse(keyword).split(' ') return
MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解
次のような感じで MeCab をインストールすると、デフォルトでは EUC-JP の文字コードで辞書がインストールされます。 aptitude install mecab UTF-8 な環境で作業する場合には、いろいろと都合が悪かったりするので、MeCab の辞書を UTF-8 に変換して使う場合のメモを書いておきます。なお、詳しく検証とかはしていないので、参考にする方は自己責任でお願いします。 ネット上を探すと IPA の辞書を使っている例が多かったのですが、デフォルトだと juman 辞書が入るみたいなので、これを UTF-8 化してみます。ちなみに、IPA 辞書は non-free みたいです。 mecab コマンドを実行する際に参照される辞書は /var/lib/mecab/dic/debian みたいですが、実際の辞書の場所は /usr/share/mecab/dic/juman
MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-
他消火が伊露露モナコMeCab55二時へホンがツクる ピャじゃなかった!なおした ニーズ "ヨッピーさんがしゃべってる言葉の変換系はまだできないんですか" "youpyさんのtwitterをフィードで読んでイラッとして自動翻訳書いてたけど10分ぐらいでアホかと思ってやめた" 実装 最新版のMeCabがピプピョプです。 % wget http://nchc.dl.sourceforge.net/sourceforge/mecab/mecab-ipadic-2.7.0-20070801.tar.gz % tar vxzf mecab-ipadic-2.7.0-20070801.tar.gz % cd mecab-ipadic-2.7.0-20070801 % wget http://fuba.moaningnerds.org/src/papyopu/conv.pl % perl conv.pl
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く