タグ

undocumentedに関するtsupoのブックマーク (1)

  • naoyaのはてなダイアリー - はてなダイアリーキーワード抽出モジュール

    一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1 用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。 竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。 と、サイボウズラボの奥さんが Lingua::JA::Summarize という Mecab を使ったキーワード抽出モジュールをリリースして GJ です。 で、これにインスパイアされてというか、そういえばはてなブックマークもエントリーのキーワード抽出とかやってるなあと思って、中を見てみたらえらい実装が汚かったw もとい、中の実装方法はというと、普通にはてなダイア

    naoyaのはてなダイアリー - はてなダイアリーキーワード抽出モジュール
    tsupo
    tsupo 2006/04/29
    ドキュメンテーションされてないパラメータに mode というのがありまして、これに lite を指定するとテキストをマークアップするのではなく、与えたテキストに含まれるキーワードのリストを返してくれたりします
  • 1