今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデル ... CLIP(Contrastive Language-Image Pre-training)は、自然言語処理と画像処理を融合したモデルです。 大量の画像とテキストのペアをインターネットから取得し、巨大なモデルを学習することで、zero-shotの設定(初めて見た画像に対する分類等)で分類することが可能になっています。 以下は、ImageNetで学習したモデル(ResNet)とCLIP(Vision Transformerベース)の比較結果です。 上段のImageNetにある画像やImageNetに近い画像であればResNetでもある程度の精度が出ていますが、3段目より下になると精度が大