今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデルと何が違うかというと、自然言語処理の技術を応用する点です。 一般的な画像分類では、たくさんの画像を用意して、それぞれ対して犬、猫、リンゴ、などのラベルをつけます。 それを教師データとして学習します。 しかしながら、その方法には以下のような問題点があります。 ラベル付けに非常にコストがかかる。ラベルの種類が限定的で、学習対象の種類についてはうまく分類できるが、初めて見る対象(例えば、犬と猫を学習して、果物を分類するなど)については分類精度が低い。 CLIPでは、こういった問題に取り組んでいきます。 ちなみに、CLIPはモデルの仕組みではなく事前学習方法ですので、モデル自体はResNetやVisi
![【論文解説】自然言語処理と画像処理の融合 - OpenAI 『CLIP』を理解する](https://cdn-ak-scissors.b.st-hatena.com/image/square/2b4bae99f8d95f65edf03347b36e5237259e18d9/height=288;version=1;width=512/https%3A%2F%2Fdata-analytics.fun%2Fwp-content%2Fuploads%2F2021%2F03%2Fholiday-2880261_1280.jpg)