はじめに インターネット上から収集した画像をもとに機械学習のデータセットを作成するとき、重複した画像の削除が必要です。訓練データに重複した画像があるならまだ良いですが、訓練データ・テストデータの間で重複した画像があると、いわゆるleakageが起きてしまいます。 画像の重複を検出する方法として最も単純なものは、MD5などのファイルのハッシュ値を利用することです。しかしながら、ファイルのハッシュ値は、あくまでも画像ファイルのバイナリ列をハッシュ化したものであり、同じ画像でも保存形式や圧縮パラメータを変えただけでも変化してしまい、検出漏れにつながります。 そこで本記事では、画像の特徴そのものをハッシュ化するアルゴリズムを紹介するとともに、簡単な実験を通してそれらハッシュ化アルゴリズムの特性を見ていきます。 画像のハッシュ化アルゴリズム Average Hash (aHash) 画像の特徴(輝度