1.はじめに 2021年1月OpenAIは、画像と画像を説明するテキストのペア4億組を学習させた、汎用画像分類モデルCLIPを発表しました。今回は、このCLIPを使って、大量の画像の中から自分が探したい画像をテキストで検索するシステムを作ってみます。 2.CLIPとは? まず、CLIPに行っている事前学習の内容を見てみましょう。 CLIPに入力されるのは、「画像」と「その内容を説明するテキスト」のペアがN個です。Image Encoderは、N個の画像からその特徴を表すベクトル I_1〜I_N を取り出そうとします。TextEncoderは、N個のテキストからその特徴を表すベクトル T_1〜T_N を取り出そうとします。 ベクトルには、2つのベクトルの内積(COS類似度)が大きいほど類似度が高く、内積が小さいほど類似度が低い、という性質があります。CLIPは、この性質を利用して、ペアである