これを使って、以前、昨年11月に公開された stabilityai/japanese-stable-clip-vit-l-16 を使ってやってみたときと同じように、ローカルの画像を日本語で検索してみるというのをやってみました。 やることは 手元の画像を google/siglip-base-patch16-256-multilingual を使ってベクトルにして、それをまとめてJSONに保存 検索したい言葉を google/siglip-base-patch16-256-multilingual を使ってベクトルにして、1.で作成したJSONに記録したベクトルとコサイン類似度で比較して、類似度が高いものを返す というシンプルなことです。今回はGoogle Colabで動くようにしてみました。 まず、自分のGoogle Driveに、以下のようなフォルダを作って、検索対象となる画像を保存して
![google/siglip-base-patch16-256-multilingual を使って、ローカルの画像を日本語で検索してみる|松xRのnote](https://cdn-ak-scissors.b.st-hatena.com/image/square/ff1e3e09c0c8fa61a83c7d48ec59aaac839d6070/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F129077523%2Frectangle_large_type_2_e17323cd7140bc9eca9d81c759fc06f4.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)