今日は、画像のシーン認識の歴史について、データセットを中心にまとめてみたいと思います。 シーン認識というと人によっていろいろ違うものを想像する気がしますが、ここで扱うのは単純な画像全体のカテゴライゼーションの問題です。 Caltech101みたいな物体認識とは何がちがうんだ?と思われるかもしれませんが、実際のところ明確な区別はありません。少なくとも現在では、技術的にもほぼ同じ枠組みで扱われることがほとんどです。私が思う違いを強いて挙げるなら、物体認識は画像中の特定領域に対象を関連付けることができる(すなわち、検出ができる)のに対し、シーン認識はあくまで画像全体との対応である場合が多いことでしょうか。 以下、代表的なデータセットを古い順にいくつか紹介します。 データセットの名前は、開発者の頭文字+クラス数で呼称されているものが多いので、ここでもそれにならいます。(最近はそうでもないですが)