[B! mecab] michael-unltdのブックマーク

クデラボ -KudeLab- » PHPでMeCabを使って形態素解析をするときのメモ

PHP で MeCabと言えば MeCab PHP extension を使うのが一般的だろうと思うけど、今回はそれを使わずにやってみようというお話。 extension を使えない環境での MeCab 使用に役に立つかも。 PHP で MeCab を使うときに面倒なのは、解析したい文章を直接システムコマンドの引数として渡すことができないところ。ファイル名なら引数として渡せるので、一旦ファイルに保存して、それを引数で渡して解析する・・・という方法が採れなくはないけど、なんか美しくない。やはり、ファイルなど使わず、そのまま直接解析させたい。そんなときは、結論から書くと、以下のようにすればいい。 $descriptorspec = array( 0 => array("pipe", "r") , 1 => array("pipe", "w") ); $process = p

michael-unltd 2009/04/29

リンク

手軽にTF/IDFを計算するモジュール - download_takeshi’s diary

情報検索の分野でよく使われるアルゴリズムで「TF/IDF」というものがあります。ドキュメントの中から「特徴語」を抽出する、といったような用途でよく使われています。 TF/IDFアルゴリズムのくわしい解説はこことかここを見てください。今回はこのTF/IDFの計算を「簡単」に実現するためのperlモジュールをCPANに上げましたので、ご紹介します。なまえはLingua::JA::TFIDFといいます。 Lingua::JA::TFIDF - TF/IDF calculator based on MeCab. http://search.cpan.org/~miki/Lingua-JA-TFIDF TF/IDF実装の困りどころ TF/IDFの実装を試みた方であればわかると思うのですが、実際にやろうとすると、TF（Term Frequency）の計算はなんら難しくありませんが、IDF（Inve

michael-unltd 2008/11/02

リンク

Site is undergoing maintenance

Site will be available soon. Thank you for your patience!

michael-unltd 2008/08/30

辞書の作成法なども

リンク

キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)

いわゆる「Web2.0」っぽい要素である「タグ」。一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。動作要件の敷居が低い辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる希望の結果に近づけるためのチューニングが可能本モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「猫かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます（

michael-unltd 2008/08/02

リンク

MeCab の辞書構造と汎用テキスト変換ツールとしての利用

$Id: dic-detail.html 161 2008-02-03 09:58:46Z taku-ku $; 概要単語辞書の構造を理解することで, MeCab を汎用的なテキスト変換ツールとして利用することができます. 例えば, ひらがな to カタカナ変換, ローマ字 to ひらがな変換, Auto Link等を MeCab だけで実行できますファイル単語辞書を構築するには, 最低以下のファイルを作成する必要があります. *.csv ファイル (単語辞書) matrix.def (連接表) unk.def (未知語用品詞定義) char.def (未知語の文字定義) dicrc (設定ファイル) *.csv ファイル単語辞書ですエントリは, 以下のような CSV で追加します. test,1223,1223,6058,foo,bar,baz 最初の4つは必須エントリで,

michael-unltd 2008/07/23

keyword抽出の理論

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

mecabに関するmichael-unltdのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス