タグ

phpとキーワード抽出に関するmstk-oのブックマーク (2)

  • PHPでMecab

    形態素解析をする必要が出たので、PHPの『Mecab Extension』を組み込んで試してみました。 インストールは簡単で、サンプルプログラムを作って動作確認をしてみました。 『5』が『5』と『』に分かれてしまうのは仕方ないのか? ****[ソース]**** <?php dl('mecab.so'); $mecab = mecab_new(); $str = '私には夢があります。ベッカム夢の夢 by 菊蔵下さいabcマートです。5指。ABCマート。ABCマートです。123'; //名詞を格納する配列 $noun_array = array(); if ($node = mecab_sparse_tonode($mecab, $str)) { while ($node) { $node_array = mecab_node_toarray($node); //char_typeが2

  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

    « IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日 キーワード抽出モジュールを作ってみた 一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

  • 1