携帯の画像をバックアップのためにコピーしてたら、同じ画像が複数コピーされちゃって るので、同一画像を検出したいな、と思ってた。 で、画像の比較だからいくらか処理を省略するにしても、画素ごとに比較しないといけな いと思いこんでた。でも類似画像の検出じゃなくて同一画像の検出だったら画素を比べる 必要ないんだね。個人的には目から鱗だった。 Image Database そう、単にハッシュを取って比較したらいいんだって。普通のファイルの比較と一緒だね。 簡単にスクリプト書いて試してみた。 import hashlib import os files = os.listdir(".") outlist = {} for i in files: m = hashlib.md5() m.update(file(i).read()) h = m.digest() if h in outli