yuisekiのブックマーク - はてなブックマーク

書籍紹介: Visual Object Recognition - n_hidekeyの日記

Visual Object Recognition (Synthesis Lectures on Artificial Intelligence and Machine Learning) 作者: Kristen Grauman,Bastian Leibe出版社/メーカー: Morgan & Claypool Publishers発売日: 2011/02/28メディア: ペーパーバック購入: 12人クリック: 182回この商品を含むブログを見る最近読んだ本の紹介をしたいと思います。名前の通り画像認識に関するチュートリアル本で、出版されたのは2011年2月28日です。著者がKristen GraumanとBastian Leibeの二人なので、これはと思い衝動買いしてしまいましたが、期待通りいい内容でした。前半と後半で特定物体認識と一般物体認識の話に大きく分かれており、それぞれ基礎か

yuiseki 2012/06/09

リンク

Does Content Matter? - n_hidekeyの日記

今日は、最近読んでいろいろ考えさせられた論文について紹介したいと思います。 Web-Scale Multimedia Analysis: Does Content Matter? IEEE MultiMedia. 18(2): 12–15 (2011) (pdf) http://www.slaney.org/malcolm/yahoo/VisionAndViews/Spring2011-DoesContentMatter.pdf (HP) http://labs.yahoo.com/node/650 内容としては、マルチメディアのコンテンツ解析分野において、これまでの考え方に疑問を投げかけるものです。この分野では、画像・動画像・音楽などの検索や推薦をコンテンツドリブンに行いたがる人が多く、定型的に用いられるロジックとしては、現在実用化されているシステムは、周囲のテキストなどなんらかのメ

yuiseki 2012/03/03

リンク

従来型BoVWの変換 - n_hidekeyの日記

Explicit feature map これに関してはどちらかというと識別器の工夫で、BoVWという表現そのものは何も変わりないのですがけっこう大事だと思うので。冒頭で述べたようにBoVWには非線形カーネルの利用が必要でした。もともとカーネルはunknownな高次元空間における内積を観測空間で行うためのツールでしたが、これを用いるとサンプル数に対するスケーラビリティは著しく落ちます（O(n^2)〜O(n^3)）。だったら、その高次元空間への写像（feature map）を明示的に書き下してしまって直接線形識別器（O(n)）を使えばいいじゃないかというのがモチベーションです。もちろん、一般的にはそのような高次元空間が書けるとは限りませんが、BoVWのようなヒストグラム特徴でよく用いられるカーネルについては比較的簡単に設計できることが分かっています。おそらく、最初に有名になったのは次の論

yuiseki 2012/02/05

リンク

新型BoVW - n_hidekeyの日記

いよいよ、従来のBoVWに変わる新しい特徴表現方法を見ていきます。これらの新しい特徴は直接線形手法に適用できるように設計されており、線形SVMと合わせて用いられることが多いです。前置き一枚の画像からBoVW（或いは、それに類する枠組み）によって特徴ベクトルを得るまでは、非常に大雑把に分けると次の二つの過程に分かれます。画像から多数（数千〜数万）の局所特徴を抽出得られた大量の局所特徴の情報を利用し、最終的なアウトプットである一本の特徴ベクトルを生成どちらも大事なプロセスですが、今回考えるのは2のほうです。つまり、局所特徴はなんらかの方法でとってあるとして、その後どうするかという部分です。1の方は今回は触れませんが、SIFT + dense sampling などが多いようです（参考: Bag of Visual Words - n_hidekeyの日記）。プロセス2で重要なのは、

yuiseki 2012/02/05

リンク

次世代BoVWまとめ - n_hidekeyの日記

以前のエントリでも述べましたが、bag of visual words（BoVW）は一般物体認識における標準的な画像特徴表現であり、非常によく用いられます。ですが、BoVWはこの３年ほどで急速に進歩しており、よく見られる「k-meansでクラスタリング → ヒストグラム作成 → 非線形SVM」という定石は既に時代遅れのものとなりつつあります。今日は、BoVWに関連する最近のトレンドをいくつか見てみたいと思います。実は、これは一般物体認識の大規模化と深い関わりがあります。古典的なBoVWでは非線形カーネルの利用が必要でしたが、最近の手法は線形識別器を直接適用できるように考えて設計されています。ここがうまくいけばあとは、いかにして大規模な線形識別器を学習するか、という機械学習やデータマイニング等でよく議論される問題まで落ちてきます。これにより、一般物体認識もかなり大きな規模のデータで学習・認

yuiseki 2012/02/05

リンク

2012-02-04

以前のエントリでも述べましたが、bag of visual words（BoVW）は一般物体認識における標準的な画像特徴表現であり、非常によく用いられます。ですが、BoVWはこの３年ほどで急速に進歩しており、よく見られる「k-meansでクラスタリング → ヒストグラム作成 → 非線形SVM」という定石は既に時代遅れのものとなりつつあります。今日は、BoVWに関連する最近のトレンドをいくつか見てみたいと思います。実は、これは一般物体認識の大規模化と深い関わりがあります。古典的なBoVWでは非線形カーネルの利用が必要でしたが、最近の手法は線形識別器を直接適用できるように考えて設計されています。ここがうまくいけばあとは、いかにして大規模な線形識別器を学習するか、という機械学習やデータマイニング等でよく議論される問題まで落ちてきます。これにより、一般物体認識もかなり大きな規模のデータで学習・認

yuiseki 2012/02/05

リンク

Paper Gestalt - n_hidekeyの日記

明けましておめでとうございます。お正月ということで、ちょっと変わった楽しい論文(？)を紹介したいと思います。 Carven von Bearnensquash, "Paper Gestalt", Secret Proceedings of Computer Vision and Pattern Recognition, 2010. http://vision.ucsd.edu/sites/default/files/gestalt.pdf 2010年のCVPRで参加者に配布されたジョーク論文で、UCSDの学生が書いたようです。もちろんこんな名前の人は実在しません。ビジョン業界の査読の傾向を皮肉る内容で、「中身なんて読まなくても見た目の印象でアクセプト・リジェクトが判断できるぜ！」というのを実際に画像認識で実験してみたものです。論文自体はネタですがやってる実験はおそらくガチです。著者は

yuiseki 2012/01/29

リンク

大量の画像で出来ること - n_hidekeyの日記

世の中はビッグデータ一色のようですね。コンピュータビジョン界隈でも大量の画像データで何が出来るかは盛んに議論されています。今日は有名なのを軽くまとめてみたいと思います。画像内容認識一番分かりやすいのは、大量のラベル付画像データを用いたパターン認識です。"More data beats better algorithm" はあちこちで言われていますが、画像認識の分野もこの方向へ進んでいます。あまり面倒くさいことしなくても、単純なノンパラメトリック手法（k最近傍法とか）で十分なんじゃないか、みたいなお話です。いろいろあるのですが、特に有名なのはMITのTorralbaさんの研究でしょうか。 A. Torralba, R. Fergus, W. T. Freeman, 80 million tiny images: a large dataset for non-parametric ob

yuiseki 2012/01/29

リンク

シーン認識データセット - n_hidekeyの日記

今日は、画像のシーン認識の歴史について、データセットを中心にまとめてみたいと思います。シーン認識というと人によっていろいろ違うものを想像する気がしますが、ここで扱うのは単純な画像全体のカテゴライゼーションの問題です。 Caltech101みたいな物体認識とは何がちがうんだ？と思われるかもしれませんが、実際のところ明確な区別はありません。少なくとも現在では、技術的にもほぼ同じ枠組みで扱われることがほとんどです。私が思う違いを強いて挙げるなら、物体認識は画像中の特定領域に対象を関連付けることができる（すなわち、検出ができる）のに対し、シーン認識はあくまで画像全体との対応である場合が多いことでしょうか。以下、代表的なデータセットを古い順にいくつか紹介します。データセットの名前は、開発者の頭文字+クラス数で呼称されているものが多いので、ここでもそれにならいます。（最近はそうでもないですが）

yuiseki 2012/01/29

リンク

シーン認識サーバを作ってみた - n_hidekeyの日記

以前から趣味で作ってた画像認識サーバが一応動くようになったので紹介したいと思います。 http://www2268u.sakura.ne.jp/uploader/upload.php 引っ越しました。 http://www6255uf.sakura.ne.jp/sun397/upload.php (※アップロードされた画像はその場で破棄しています。) 概要前回のエントリで紹介したSUN397シーン画像データセットで学習した認識システムが動いています。ベンチマークでの認識率は37.8%で、現在の先端研究とほぼ同等の精度です。風景画像とか、室内画像のシーンをある程度認識できます。データセットの画像は主に海外の人が撮った写真なので、欧米の風景写真の方が認識できる確率が高いようです。さくらのVPSで、一番安いもの（VPS512）を使ってます。非力です。アクセスが殺到したら多分やばいです（笑）

yuiseki 2012/01/29

リンク

大規模画像データセット - n_hidekeyの日記

最近は画像認識・検索で用いられるデータセットも大規模化が進んでいます。いくつか代表的なものや最近見つけたものをまとめてみます。（ここでの目安は、教師つきデータは10万枚以上、教師なしデータは100万枚以上のもの） ImageNet http://www.image-net.org/ 自然言語処理の分野で有名なWordNetのオントロジーに従って、各単語（今のところ名詞のみ）に対応する画像を収集したものです。Amazon Mechanical Turk を利用し、質の高いデータセットを構築するように工夫されています。日々データは蓄積・更新されており、2012年1月現在、約1400万枚の画像データ（2万2千カテゴリ）が集まっているようです。アノテーションは基本的に1画像1カテゴリで、一部の画像には物体の位置を示すbounding boxもついています。カテゴリによっては十分な数の画像がな

yuiseki 2012/01/16

リンク

Bag of Visual Words - n_hidekeyの日記

Bag of visual words (BoVW)は、一般物体認識において現在最も広く普及している画像特徴表現で、画像中の多数の局所特徴をベクトル量子化しヒストグラムにしたものです。最近はOpenCVなどのツールの普及により使いやすくなってきましたが、実際に使ってみようとすると細かい部分でつまづくことも多いのではないでしょうか。最新の研究では認識精度が飛躍的に向上していますが、局所特徴抽出などの細かいノウハウの蓄積による部分もかなり大きいと思います。（そのような部分は学術的な新規性は低いため、論文ではさらりと書いてあることが多いのですが）以下、自分が把握しているノウハウをまとめてみたいと思います。ただし、私自身の経験や主観に基づくものであり、絶対的なものではないことにご注意ください。また、BoVWについて基本的な知識があることを前提としています。画像サイズまず、そもそも画像はど