mstk-oのブックマーク / 2008年12月6日

mstk-o id:mstk-o

2008年12月6日のブックマーク (3件)

キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)
いわゆる「Web2.0」っぽい要素である「タグ」。一般にはタグ付けは手動で行うわけですが、自然言語テキストへのタグ付け(キーワード抽出)を自動で行うことができれば、あれこれと可能性が広がって楽しそう……しかし、それは実現が難しかったり高コストだったりして、簡単に手を出せる解はあまりありません。ラボの奥さんの作成したキーワード抽出モジュール Lingua::JA::Summarize は次の特徴を持っています。動作要件の敷居が低い辞書のメンテナンスをしなくても、未知語や熟語もある程度抽出してくれる希望の結果に近づけるためのチューニングが可能本モジュールを使って、サイボウズ・ラボ内での情報交換を行っている社内掲示板をスレッド単位で解析しているのですが、辞書を一切チューニングしていない状態でも「しょこたん☆ぶろぐ」や「猫かぶり隊隊員ニャンコ達」などの特徴的なキーワードが抽出されます（
mstk-o 2008/12/06
keyword

MeCab

perl

形態素解析

Web2.0

cpan

自然言語処理
リンク
blog.katsuma.tv
文章中のキーワード抽出を行いたくなっていろいろ調べていて、次の組み合わせで実現することができました。 Mecab Lingua::JA::Summarize Pecl/Perl Mecabは文書の形態素解析に。Lingua::JA::Summarizeはサイボウズラボ奥さんのキーワード抽出CPANモジュール。これをCakePHPに組み込みたかったのでPeclのPerlライブラリ（PHPからPerlのコードをダイレクトに呼べる）。導入も特に難しくないので、その導入メモを残しておきます。 Mecab Fedora系Linuxだとyumで辞書ファイルも一緒にさっくりインストールできます。Perlのモジュールも入れておきます。 sudo yum -y install mecab\* sudo yum -y install perl-mecab\* Lingua::JA::Summarize CPA
mstk-o 2008/12/06
MeCab

perl

CakePHP

php

pecl
リンク
Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた
« IIS のログを tail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日キーワード抽出モジュールを作ってみた一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab
mstk-o 2008/12/06
形態素解析

MeCab

キーワード抽出

keyword

php

perl
リンク
- 2008年12月9日
- 2008年12月6日
- 2008年12月4日