以下の記事を参考にして書いてます。 ・How to Try CLIP: OpenAI's Zero-Shot Image Classifier 1. はじめに今年はじめに、OpenAIはコンピュータービジョンの世界に爆弾を投下しました。2つの新しい画期的なモデルは、巨大なGPT3風のTransformerモデルが画像分野に侵入することを示唆しています。「DALL-E」(テキストプロンプトから画像を生成できるモデル)が多くの注目を集めましたが、この投稿では「CLIP」に焦点を当てます。「CLIP」は間違いなくより重要なZero-shot画像分類器になります。 これまで「画像分類」は、ターゲットクラスを適切に表す数百〜数千、さらには数百万のラベル付き画像のカスタムデータセットを収集し、それを使用して教師あり分類モデル(通常はCNN)を学習していました。このアプローチ(および「物体検出」のような
![CLIPを試す - OpenAIのZero-shot画像分類器|npaka](https://cdn-ak-scissors.b.st-hatena.com/image/square/a9eadf60bbb6e1466111420aeeb5fe68a80f40be/height=288;version=1;width=512/https%3A%2F%2Fassets.st-note.com%2Fproduction%2Fuploads%2Fimages%2F48061876%2Frectangle_large_type_2_d44ee7e8cd2950bf45c426b2586c267b.png%3Ffit%3Dbounds%26quality%3D85%26width%3D1280)