タグ

Mecabに関するVitamin_Lemonのブックマーク (9)

  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

  • MeCabで切った後の複合名詞に対して、部分文字列の組み合わせを考える - yasuhisa's blog

    完全一致はしないけど、部分文字列で見ると専門用語があるという感じなので、分類したいデータは取りうる部分文字列の組み合わせの要素、ということになる。 def comb_of_substr(a) (1..a.length).map{|b| a.enum_cons(b).map{|c| c } }.inject([]) {|z, x| z + x } end comb_of_substr([1,2,3]) # => [[1], [2], [3], [1, 2], [2, 3], [1, 2, 3]] こんな感じ。 irb(main):278:0> puts comb_of_substr(["グリコーゲン", "分枝", "酵素"]) グリコーゲン 分枝 酵素 グリコーゲン 分枝 分枝 酵素 グリコーゲン 分枝 酵素 => nil 参考 : たたみすぎる Array#flatten - まめめも

    MeCabで切った後の複合名詞に対して、部分文字列の組み合わせを考える - yasuhisa's blog
  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点
  • MeCabのインストール@freeBSD

    形態素解析で最も熱いと授業でTAが力説していたMeCab(ver0.95)をMacOSX(ver10.4.9)へインストールしてみた。そのログっぽいやつ。 0.MeCabとその仲間をダウンロードする まずは準備としてMeCabとそれに使用する辞書をダウンロードする。 http://downloads.sourceforge.net/mecab/mecab-0.95.tar.gz http://downloads.sourceforge.net/mecab/mecab-ipadic-2.7.0-20060707.tar.gz IPA辞書が推奨らしいのでおとなしくしたがってみた。 気分によってJUMANを使ってもいいと思う。。。使ったことないけど。 ダウンロードしたやつは適当なフォルダに入れとく。 ちなみに自分は/usr/local/src/mecabに入れたのでご承知を。 1.MeCabの

    MeCabのインストール@freeBSD
  • ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

    ベイジアンフィルターで日語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。 ところが、日語の場合は、「エアポートの無線ネットワークはどうやって設定しますか?」という文章を、「エアポート の 無線 ネットワーク は どう やっ て 設定 し ます か ? 」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。 そこで、この高度な作業を

    ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。
  • mecab のインストール<BR> (Mac OSX & Cygwin on Windows)

    mecab をインストールします。 2007-11-10 Leopardでも、問題なくビルド出来ました まえがき インストール 設定 使い方 関連するページはこちら、 Mail::BogoFilter —- bogofilter のチューニングを紹介しています。日語による前処理、DB の効率的な鍛え方、spam-cutoff の設定の考え方等に触れています。 BogofilterNihongo —- bogofilter-nihongo.rb で、メールの事前処理をして、bogofilter に渡しています。 MecabRuby —- bogofilter-nihongo.rb で、mecab-ruby を呼んでいます。mecab-ruby は、mecab の ruby バインディングです。 MacOSX & Cygwin on Windows のソフトの事 Windows & Mac

  • MeCab: Yet Another Japanese Dependency Structure Analyzer

    スクリプト言語のバインディング $Id: bindings.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 各種スクリプト言語 (perl, ruby, python, Java) から, MeCab が提供する形態素解析の機能を利用可能です. 各バインディングは SWIG というプログラ ムを用いて, 自動生成されています. SWIG がサポートする他の言語も 生成可能だと思われますが, 現在は, 作者の管理できる範囲内ということで, 上記の4つの言語のみを提供しております. インストール 各言語バイディングのインストール方法は, perl/README, ruby/README, python/README, java/README を御覧下さい. とりあえず解析する MeCab::Tagger というクラスのインスタンスを生成し, pa

  • 形態素解析 - Ruby on Rails プラグイン まとめ wiki

    このライブラリ(?)でできること 日語の自然文章を解析して、分かち書きしたり、単語を取り出したり、品詞を取り出したり、読み方を推定したりできる 取り出した単語を集計していろいろ統計情報がとれる 読み方が正しければ発声できる可能性がある(これはまだまだかなぁ) 対象バージョン

    形態素解析 - Ruby on Rails プラグイン まとめ wiki
  • MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

    MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧ください メーリングリスト 一般ユーザ向けメーリングリスト 開発者向けメーリングリスト 新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった 一部のコンパイラで正しくコンパイルできなかった問題の修正 部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

  • 1