要点 OpenAI CLIPの日本語モデルを作り、公開しました。ご活用ください。 CLIPとは画像とテキストの埋め込みモデル(意味を表す固定長のベクトルに変換するモデル)であり、意味が近い画像とテキスト同士が近いベクトルになるという性質を持っています。4億枚の多様な画像とテキストのペアを用いて学習されており、高いゼロショット性能を備えています。 応用例:テキストによる画像の検索、類似画像検索、画像 and/or テキストの分類、クラスタリング、画像やテキストの特徴量生成など 日本語CLIPモデルはHugging Face Model Hubからダウンロードできます。 応用方法を理解するためのサンプルコードとその解説を、4つの記事にして順次公開する予定です。進捗状況: 1/4。 日本語CLIPモデルの使い方、サンプルコード(鋭意作成中) 長くなるので使い方の解説は別の記事にしました。 すぐに