DNN等の機械学習を用いて画像認識・分類を行う場合、学習実行時に大量の訓練用画像が必要となるため、 web等で公開されているデータセット(画像集合)を用いるケースが多くあるかとあります。 しかし顔画像分類・認識の場合には肖像権等の問題もあるためにフリーで公開されてるデータセットが少なく、 結果として学習画像を集めるのに苦慮されてる方も多いと思います。 そこで顔画像データセットを自作する一方法をここで紹介しておきます。 #今回用いた開発環境 MacOS X El Capitan 10.11.4 Python 3.5 OpenCV 3.1 #候補画像の取得 まず目的となる顔が写っている可能性がある画像(以下、候補画像と呼ぶ)を収集します。 考えられる収集方法としては以下の手法があります。 一般公開されているWebAPIサービスを用いて収集 動画をフレーム解析して収集 webページをスクレイピン