積読の記事のサーベイ、その1。形態素解析とTF-IDFを用いるのはキーワード抽出の基本的や方法ですが、そこにYahoo! APIも組み合わせちゃおうというやり方。 http://nais.to/~yto/clog/2005-10-12-1.html 手順は、次のとおり。 TFの計算:形態素解析で名詞だけキーワードとして抽出(ここではChasen使用) 全ドキュメント数の確定:Yahoo!でインデックスされているページ数 DFの計算:キーワードが含まれるドキュメント数をYahoo! APIでゲット TD-IDFの計算 関連情報はこちら。 http://nais.to/~yto/clog/2006-04-26-2.html Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた