タグ

ブックマーク / cru.hatenadiary.org (2)

  • サルでもわかる顔検出の原理 - 科学信仰

    顔検出機能はここ数年で急激に普及してデジカメとかケータイとかにフツーに入るようになったり、Google画像検索のオプションに入ってたりして、すっかりコモディティ化しちゃってるけど、ちょっと前まではすごい困難で実用化に手を出すなんてとてもとてもな技術だったんだよね。 2001年のViola & Johnsの論文*1で超高速&超正確な検出アルゴリズムが発表されるまでは。 これの画期的だった点は非力なパソコン(とか現在のケータイ内蔵CPUとか)で画像中からリアルタイムに顔を検出できたことなんだ。 キモは3点。 Integral-ImageによるHaar-like検出器の高速演算 AdaBoostによる検出能力の強化 多段フィルタ(cascade)による非顔領域の高速排除 具体的にどれがViolaらのオリジナルの仕事なのかはよく知らないけれど。 少なくとも一個目と三個目はそうな気がする。 Inte

    サルでもわかる顔検出の原理 - 科学信仰
  • Haar-likeフィルタの効率性の幾何学的意味 - 科学信仰

    今回は、単なる思考のメモ。 前回注釈で次のように書いた: 顔画像を(Violaらが使った)24×24=576画素を要素とした576次元の高次元ベクトルと考えると、Haar-likeフィルタはこの高次元空間を高次元超平面で区切る作用を持つ。あらゆる画像が存在する576次元空間の中の顔が占める部分だけを凸包で包む――正確にはadaBoostを使うことで凸でない超平面で包んでるけど。このシンプルさ――というかアバウトさ加減――がViolaらの方法の汎化能力(学習した顔以外の顔画像も顔として検出できる)の高さの秘密だと思う。 この解像度24×24画素572次元の高次元ベクトル空間(画像状態空間)は、とてつもなく広い。 色深度8ビットであらわされるモノクロ空間でも(2^8)^572(≒1.4×10の1387乗)個の状態がありうる。 全宇宙のハドロンの総数なんかこれにくらべれば“塵芥(ちりあくた)”程

    Haar-likeフィルタの効率性の幾何学的意味 - 科学信仰
  • 1