Introduction データセットを追加してリネームを繰り返していると、同一画像が複数枚混ざっていることに気が付きました。 効率的に取り除く方法としてimgsimというライブラリを用いて画像の類似度を測定しました。 過学習の原因となる同一画像の削除、似たような画像の分類等に役立てられます。 ※詳細は下記 GitHub の方でご確認ください。 本記事が少しでも読者様の学びに繋がれば幸いです! 「いいね」をしていただけると今後の励みになるので、是非お願いします! 環境 Ubuntu22.04 Python3.11.1 imgsim とは 異なる画像の特徴ベクトル間の距離や類似度の差を計算します。 AugNetというディープラーニング学習パラダイムを用います。 差が 0 なら同一画像、値が大きくなるほど特徴量の異なる画像です。 AugNet とは 教師なし学習を使用して、画像の表現学習を行う