RCNN (Regional Convolutional newral networks)などの機械学習モデルを使って画像から物体検出するには、"どこ"に"なにが"あるのか、すなわちバウンディングボックスの四角の座標(x, y)および正解ラベルが画像とセットで必要となります。 10000枚単位の画像が欲しい場合、自力で集めるのは大変なので、Pascal VOCのようなコンペで公開されている過去のトレーニング用データセットを流用しますが、それだけでは足りなかったり、自分が検出したい物体がなかったりします。 そんなときにPascal VOCに存在しない正解データを自分で追加して、一緒に学習させたい場合は、Pascal VOCのデータセットと同一形式のアノテーションデータを用意すると一緒に処理できて便利です。 例えばこの画像だと、黄枠のバウンディングボックスの中に車と人間がいます。 これがPas