画像の類似度って難しいですよね? 同じものを表しているのに、画像としては全然違うものだからEmbeddingしてコサイン類似度を測ると遠くなることがよくあります。 なので、商品や動物などの物体を比較する場合は画像の類似度はあてになるけど、スポーツやビジネスシーン等の状況や場面の類似度は難しいという課題がありました。 例としてスポーツを見てみましょう。 以下の4枚の画像の類似度を出します。 画像1画像2画像3画像4画像1~3は野球で、画像4はバスケの画像です。 とりあえずAugNetで類似度を出しましょう。 結果 この結果を見ると一番似ているのは、画像1と画像4です。 野球画像の画像1~3同士は近く、画像4は他と遠くなって欲しい場合はどうしましょうか? そこでLLMを使ってみます。 ChatGPTのSceneXplainを使います。 SceneXplainはChatGPTのプラグインで、画像