タグ

ブックマーク / fujimizu.hatenablog.com (2)

  • bayonを使って画像からbag-of-keypointsを求める - のんびり読書日記

    クラスタリングツールbayonとOpenCVを使って、画像からbag-of-keypointsを特徴量として抽出する手順について書きたいと思います。bag-of-keypointsは自然言語処理でよく使用されるbag-of-words(文章を単語の集合で表現したもの)と同じようなもので、画像中の局所的な特徴量(keypoint)の集合で画像の特徴を表します。bag-of-wordsと同じ形式ですので言語処理と同じように、bag-of-keypointsデータを使ってクラスタリングツールに適用したり、転置インデックスに載せたりといったことが可能になります。 今回は画像からbag-of-keypointsを取り出し、そのデータを使ってbayonで画像集合をクラスタリングするところまでやってみます。ちなみに画像処理は完全に素人で、この記事もニワカ知識で書いているので、間違っている箇所やもっと効率

    bayonを使って画像からbag-of-keypointsを求める - のんびり読書日記
    ma_ko
    ma_ko 2010/01/25
    前からbayonのmake失敗するなーと思っていたが、とりあえず google-sparsehash 外したらmakeできた…
  • TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記

    以前にk-means++をPerlで書いたのですが、実際に試すデータがなかったのでそのまま放置してました。せっかくなので大きなデータで試してみたいので、今回は下準備としてwikipediaの各キーワードに対し、その特徴を表すデータを抽出したいと思います。そして今回作ったデータを使って、k-meansや階層的クラスタリングなど他の手法をいずれ試してみる予定です。 今回は特徴量としてベタにTFIDFを使うこととします。TFIDFについては、下記のページが詳しいためそちらをご参照ください。 形態素解析と検索APIとTF-IDFでキーワード抽出 tf-idf - Wikipedia まずWikipediaのデータをダウンロードしてきます。以下のページから、「jawiki-latest-pages-articles.xml.bz2」をダウンロードしてください。 http://download.wik

    TFIDFを使ってwikipediaの各キーワードの特徴量を抽出 - のんびり読書日記
    ma_ko
    ma_ko 2009/09/18
  • 1