Bag of visual words (BoVW)は、一般物体認識において現在最も広く普及している画像特徴表現で、画像中の多数の局所特徴をベクトル量子化しヒストグラムにしたものです。最近はOpenCVなどのツールの普及により使いやすくなってきましたが、実際に使ってみようとすると細かい部分でつまづくことも多いのではないでしょうか。最新の研究では認識精度が飛躍的に向上していますが、局所特徴抽出などの細かいノウハウの蓄積による部分もかなり大きいと思います。 (そのような部分は学術的な新規性は低いため、論文ではさらりと書いてあることが多いのですが) 以下、自分が把握しているノウハウをまとめてみたいと思います。ただし、私自身の経験や主観に基づくものであり、絶対的なものではないことにご注意ください。 また、BoVWについて基本的な知識があることを前提としています。 画像サイズ まず、そもそも画像はど