[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...

画像検索についていろいろとちょっとした実装や調査をしていました。 そろそろ資料等をまとめておかないと忘れそうなので書いておきます。 まずさっそくですが「画像を検索する」と一言でいっても、 それには以下のような種類があり、対象や方法は様々です。 類似画像検索 …… 対象画像から特徴を抽出し類似した画像を検索する 特定物体認識 …… 単一の対象画像から特徴を抽出しその物体と同じモノを認識 一般物体認識 …… 複数の対象画像から特徴を学習しその物体と同じ種類を認識 「類似画像検索」は Google Goggle などが有名で、「一般物体認識」は笑い男ツールなどの顔認識でよく知られていますね。「特定物体認識」はまだそこまでポピュラーに使われてませんが、東のエデンシステムなどはまさにこれです(笑)。 さてではどのような方法で検索を行うかということですが、ここで画像の特徴といっている、これを使います。
http://www.vision.ee.ethz.ch/~surf/papers.html - 本家 http://opensurf1.googlecode.com/files/OpenSURF.pdf - Implementation note 下のPDFを理解するのに十分な量を書けたらという感じで。 SIFTやSURFの仕事 http://www.vision.cs.chubu.ac.jp/SIFT/ SIFTやSURFの最終的な仕事は、"スケール(大きさ)と回転に対して不変な特徴量を求めること"。 コンピュータにデータを比較するためには、データを(複数の)数値 = 特徴量に変換してやる必要が有る。 人間にとっては、ある画像を拡大縮小したり回転させたりした画像も"同じ"画像なので、特徴量も回転や拡大縮小の後も同じである(あまり変化しない)ことが望ましい。 構造 一般的にSIFTとかS
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く