タグ

algorithmとsearchに関するtokadaのブックマーク (7)

  • 類似画像検索システムを作ろう - 人工知能に関する断創録

    C++版のOpenCVを使ってカラーヒストグラムを用いた類似画像検索を実験してみました。バッチ処理などのスクリプトはPythonを使ってますが、PerlでもRubyでも似たような感じでできます。 指定した画像と類似した画像を検索するシステムは類似画像検索システムと言います。GoogleYahoo!のイメージ検索は、クエリにキーワードを入れてキーワードに関連した画像を検索しますが、類似画像検索ではクエリに画像を与えるのが特徴的です。この分野は、Content-Based Image Retrieval (CBIR)と呼ばれており、最新のサーベイ論文(Datta,2008)を読むと1990年代前半とけっこう昔から研究されてます。 最新の手法では、色、形状、テクスチャ、特徴点などさまざまな特徴量を用いて類似度を判定するそうですが、今回は、もっとも簡単な「色」を用いた類似画像検索を実験してみます

    類似画像検索システムを作ろう - 人工知能に関する断創録
  • Program - Adversarial Information Retrieval on the Web (AIRWeb'08)

  • Robust PageRank and Locally Computable Spam Detection Features - 日々の勉強の航跡

    R. Andersen, C. Borgs, J. Chayes, J. Hopcroft, K. Jain, V. Mirrokni, S. Teng Robust PageRank and Locally Computable Spam Detection Features Proceedings of Fourth International Workshop on Adversarial Information Retrieval on the Web 2008. Apr. 論文の在処 概要 Webのspamに関連した論文。 局所的に計算できるcontribution vector*1の近似を用いて、前半ではspamの発見方法の提案、後半ではRobust PageRankという文字通りPageRankをspamに対してrobustにしたランキングシステムの提案をしている。 cont

    Robust PageRank and Locally Computable Spam Detection Features - 日々の勉強の航跡
  • http://homepage3.nifty.com/TaN/prog-image.html

    類似画像検索に関する情報 目的 優れた画像類似検索エンジンを探しています。この手のものは今後重要性を増していくと思うのですが、現在のところ自由に使え、実用的、優れたものを見たことがありません。もし見つかればそれを使うつもりですが、無ければ自分で作ってみようと思っています。もしうまくいけばオープンソースとして公開したいな、と思っています。(画像処理の勉強にもなるし:-) 現在進行中 imgSeekが使いものになりそうなので、現在そのソースコードの一部を使用して、Windowsのコマンドラインで動作するものを作成中! ソフト 画像処理関連のソフトの一覧 ImageMagick 今ではWindows版もある。ImageMagickのわかりやすい紹介 imgSeek 画像管理・Viewer。類似画像検索には multi-resolution wavelet decomposition を使っている

  • ブートストラップによるパターン抽出 - 武蔵野日記

    午後は情報検索に関するトーク。shima さんたちのチームの話が気になったのでメモ。 Ni Lao, Hideki Shima, Teruko Mitamura and Eric Nyberg. Query Expansion and Machine Translation for Robust Cross-Lingual Information Retrieval. NTCIR-7. 2008. この論文、言語横断検索のためにいろいろなことをやっているのだが、自分が気になったのはクエリ展開(query expansion)の部分。クエリ展開とはたとえば「カーネギーメロン大学」と「CMU」が同義語であった場合、「カーネギーメロン大学」と入れて「CMU」のページも検索してくれると嬉しいよね、という話で、それを自動的に展開してあげましょう、という内容なのだが、この同義語・言い換えをどう見つける

    ブートストラップによるパターン抽出 - 武蔵野日記
  • はてなブックマーク全文検索機能の裏側

    そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。 はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。 全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

    はてなブックマーク全文検索機能の裏側
  • Wavelet Tree - naoyaのはてなダイアリー

    圧縮全文索引の実装などでしばしば利用される Rank/Select 辞書と呼ばれるデータ構造があります。詳しくは参考文献を参照していただくとして、今回は一般の文字列に対して効率的に Rank/Select を可能とするデータ構造である Wavelet Tree (ウェーブレット木) のライブラリを作りました。 http://github.com/naoya/perl-algorithm-wavelettree/tree/master my $wt = Algorithm::WaveletTree->new("abccbbabca"); is $wt->rank(6, 'a'), 2; is $wt->rank(6, 'b'), 3; is $wt->rank(9, 'b'), 4; is $wt->select(0, 'a'), 0; is $wt->select(1, 'a'), 6;

    Wavelet Tree - naoyaのはてなダイアリー
  • 1