エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
同一画像を判定するためのハッシュ化アルゴリズム - Qiita
はじめに インターネット上から収集した画像をもとに機械学習のデータセットを作成するとき、重複した画... はじめに インターネット上から収集した画像をもとに機械学習のデータセットを作成するとき、重複した画像の削除が必要です。訓練データに重複した画像があるならまだ良いですが、訓練データ・テストデータの間で重複した画像があると、いわゆるleakageが起きてしまいます。 画像の重複を検出する方法として最も単純なものは、MD5などのファイルのハッシュ値を利用することです。しかしながら、ファイルのハッシュ値は、あくまでも画像ファイルのバイナリ列をハッシュ化したものであり、同じ画像でも保存形式や圧縮パラメータを変えただけでも変化してしまい、検出漏れにつながります。 そこで本記事では、画像の特徴そのものをハッシュ化するアルゴリズムを紹介するとともに、簡単な実験を通してそれらハッシュ化アルゴリズムの特性を見ていきます。 画像のハッシュ化アルゴリズム Average Hash (aHash) 画像の特徴(輝度
2020/05/09 リンク