[B! Mecab] Vitamin_Lemonのブックマーク

MeCabのコマンドライン引数一覧とその実行例 | mwSoft

-r --rcfile 使用するリソースファイルを指定するリソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

Vitamin_Lemon 2009/10/20

Mecab

リンク

MeCabで切った後の複合名詞に対して、部分文字列の組み合わせを考える - yasuhisa's blog

完全一致はしないけど、部分文字列で見ると専門用語があるという感じなので、分類したいデータは取りうる部分文字列の組み合わせの要素、ということになる。 def comb_of_substr(a) (1..a.length).map{|b| a.enum_cons(b).map{|c| c } }.inject([]) {|z, x| z + x } end comb_of_substr([1,2,3]) # => [[1], [2], [3], [1, 2], [2, 3], [1, 2, 3]] こんな感じ。 irb(main):278:0> puts comb_of_substr(["グリコーゲン", "分枝", "酵素"]) グリコーゲン分枝酵素グリコーゲン分枝分枝酵素グリコーゲン分枝酵素 => nil 参考 : たたみすぎる Array#flatten - まめめも

Vitamin_Lemon 2009/06/28

Ruby
Mecab

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

Vitamin_Lemon 2009/06/01

リンク

MeCabのインストール＠freeBSD

今形態素解析で最も熱いと授業でTAが力説していたMeCab（ver0.95）をMacOSX（ver10.4.9）へインストールしてみた。そのログっぽいやつ。 0.MeCabとその仲間をダウンロードするまずは準備としてMeCabとそれに使用する辞書をダウンロードする。 http://downloads.sourceforge.net/mecab/mecab-0.95.tar.gz http://downloads.sourceforge.net/mecab/mecab-ipadic-2.7.0-20060707.tar.gz IPA辞書が推奨らしいのでおとなしくしたがってみた。気分によってJUMANを使ってもいいと思う。。。使ったことないけど。ダウンロードしたやつは適当なフォルダに入れとく。ちなみに自分は/usr/local/src/mecabに入れたのでご承知を。 1.MeCabの

Vitamin_Lemon 2009/05/01

Ruby
Mecab

リンク

ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

ベイジアンフィルターで日本語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。ところが、日本語の場合は、「エアポートの無線ネットワークはどうやって設定しますか？」という文章を、「エアポートの無線ネットワークはどうやって設定しますか？」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。そこで、この高度な作業を

Vitamin_Lemon 2009/05/01

Mecab

リンク

mecab のインストール<BR> (Mac OSX & Cygwin on Windows)

mecab をインストールします。 2007-11-10 Leopardでも、問題なくビルド出来ましたまえがきインストール設定使い方関連するページはこちら、 Mail::BogoFilter —- bogofilter のチューニングを紹介しています。日本語による前処理、DB の効率的な鍛え方、spam-cutoff の設定の考え方等に触れています。 BogofilterNihongo —- bogofilter-nihongo.rb で、メールの事前処理をして、bogofilter に渡しています。 MecabRuby —- bogofilter-nihongo.rb で、mecab-ruby を呼んでいます。mecab-ruby は、mecab の ruby バインディングです。 MacOSX & Cygwin on Windows のソフトの事 Windows & Mac

Vitamin_Lemon 2009/05/01

Mecab
MacOSX

リンク

MeCab: Yet Another Japanese Dependency Structure Analyzer

スクリプト言語のバインディング $Id: bindings.html 161 2008-02-03 09:58:46Z taku-ku $; 概要各種スクリプト言語 (perl, ruby, python, Java) から, MeCab が提供する形態素解析の機能を利用可能です. 各バインディングは SWIG というプログラムを用いて, 自動生成されています. SWIG がサポートする他の言語も生成可能だと思われますが, 現在は, 作者の管理できる範囲内ということで, 上記の4つの言語のみを提供しております. インストール各言語バイディングのインストール方法は, perl/README, ruby/README, python/README, java/README を御覧下さい. とりあえず解析する MeCab::Tagger というクラスのインスタンスを生成し, pa

Vitamin_Lemon 2008/12/05

リンク

形態素解析 - Ruby on Rails プラグインまとめ wiki

このライブラリ(?)でできること日本語の自然文章を解析して、分かち書きしたり、単語を取り出したり、品詞を取り出したり、読み方を推定したりできる取り出した単語を集計していろいろ統計情報がとれる読み方が正しければ発声できる可能性がある(これはまだまだかなぁ) 対象バージョン

Vitamin_Lemon 2008/12/05

ruby
Mecab

リンク

MeCab: Yet Another Part-of-Speech and Morphological Analyzer(形態素解析エンジン)

MeCab に至るまでの形態素解析器開発の歴史等はこちらをご覧くださいメーリングリスト一般ユーザ向けメーリングリスト開発者向けメーリングリスト新着情報 2008-02-03 MeCab 0.97 マルチスレッド環境で辞書を開くときの排他制御がうまくいっていなかったバグの修正 Windows版でインストール時に辞書の文字コードを指定できるようになった一部のコンパイラで正しくコンパイルできなかった問題の修正部分解析モードを変更するAPI の追加 (Tagger::set_partial()) ラティスの生成レベルを変更するAPI の追加 (Tagger::set_lattice_level()) 温度パラメータを変更するAPIの追加 (Tagger::set_theta()) 全候補出力モードを変更するAPIの追加 (Tagger::set_all_morphs()) 2007-

Vitamin_Lemon 2008/09/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (5)

Mecabに関するVitamin_Lemonのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス