[B! mecab] poohtarouのブックマーク

MeCabのコマンドライン引数一覧とその実行例 | mwSoft

-r --rcfile 使用するリソースファイルを指定するリソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

poohtarou 2013/07/17

mecab

リンク

MeCab + Ruby で形態素解析（わかち書き） - (ﾟ∀ﾟ)o彡 sasata299's blog

2009年09月21日01:32 Ruby MeCab + Ruby で形態素解析（わかち書き）形態素解析という技術をご存知でしょうか。日本語を最小単位で単語ごとに分割し、それぞれの単語が名詞なのか動詞なのかを判定してくれるものです。例えば「今日は良い天気ですね」を形態素解析するとこのような結果が得られます。今日名詞,副詞可能,*,*,*,*,今日,キョウ,キョーは助詞,係助詞,*,*,*,*,は,ハ,ワ良い形容詞,自立,*,*,形容詞・アウオ段,基本形,良い,ヨイ,ヨイ天気名詞,一般,*,*,*,*,天気,テンキ,テンキです助動詞,*,*,*,特殊・デス,基本形,です,デス,デスね助詞,終助詞,*,*,*,*,ね,ネ,ネ EOS さらに、文章を単語ごとにスペース区切りにする処理をわかち書きといいます。こんな感じです。今日は良い天気ですねこの処理は日

poohtarou 2013/07/17

リンク

ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

ベイジアンフィルターで日本語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。ところが、日本語の場合は、「エアポートの無線ネットワークはどうやって設定しますか？」という文章を、「エアポートの無線ネットワークはどうやって設定しますか？」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。そこで、この高度な作業を

poohtarou 2013/07/17

リンク

Rubyで形態素解析してみた - unnecessary words

昨日の晩あたりから、形態素解析したい気分だったのでやってみました。形態素解析というのは以下のようなもの。対象言語の文法の知識（文法のルールの集まり）や辞書（品詞等の情報付きの単語リスト）を情報源として用い、自然言語で書かれた文を形態素（Morpheme, おおまかにいえば、言語で意味を持つ最小単位）の列に分割し、それぞれの品詞を判別する作業を指す。形態素解析 - Wikipedia 圧縮新聞にも使われているそうです。「圧縮新聞」を作った - phaの日記今回は、MeCab(和布蕪)という形態素解析エンジン利用させて頂きました。 Ubuntu環境で実験しましたが、大抵同じような作業で動くと思います。文字コードの指定のみ適時読み替えてください。ファイルの取得 MeCab本体(mecab-0.97.tar.gz)、辞書ファイル(mecab-ipadic-2.7.0-20070801.

poohtarou 2013/07/17

mecab
ruby

リンク

テキストマイニングの初歩 Rubyで形態素解析を行う〜ruby-mecab | | Scimpr Blog

環境　ubuntu server 12.04 英語は単語を空白で区切るのでコンピュータでの解析に向いているが、日本語は助詞などを続けて書くのが通常で、さらに続く語によって活用が変化するのでコンピュータでの解析は難しいそこで日本語の文章を構成する要素を解析するソフトが必要になるこういうのを形態素解析というらしい実例を見たほうが早い $ mecab すもももももももものうちすもも名詞,一般,*,*,*,*,すもも,スモモ,スモモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,*,*,もも,モモ,モモも助詞,係助詞,*,*,*,*,も,モ,モもも名詞,一般,*,*,*,*,もも,モモ,モモの助詞,連体化,*,*,*,*,の,ノ,ノうち名詞,非自立,副詞可能,*,*,*,うち,ウチ,ウチ EOS

poohtarou 2013/07/17

mecab
ruby

リンク

mecabのユーザ辞書でwikipediaとhatenaキーワードを利用する - てんぷろぐ

（インストールの仕方などはほかの人がいっぱい説明してくれているので割愛）どうやら標準の辞書だけだと限界があるようので、以下の記事などを参考に「wikipediaとhatenaキーワードをユーザ辞書として利用する」ということをやってみました。 http://d.hatena.ne.jp/code46/20090531/p1 http://www.mwsoft.jp/programming/munou/mecab_hatena.html http://deepneko.dyndns.org/kokotech/2009/06/mecabwikipedia.html 作ったのは以下の2つのスクリプト。 webからデータを取ってきて、csv作成コマンド、辞書作成コマンドを呼び出すshell (convWebWordsToDic.sh) #!/bin/sh CSV=../data/words.c

poohtarou 2010/02/28

mecab
ruby

リンク

マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

そもそも、マルコフ連鎖とは何なのか？全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ？コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った！作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済みマルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。（素晴らしい情報に感謝です！） MeCabを使ってマルコフ連鎖一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

poohtarou 2009/06/29

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

mecabに関するpoohtarouのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス