自然言語と画像を結びつけて高い汎化性能を実現したOpenAIのCLIPを紹介! 2021.01.08 レポート 画像処理, 自然言語処理 はじめに OpenAIが新たに画像処理モデルとしてCLIP(Contrastive Language–Image Pre-training)を発表しました。従来よりも汎用性能が高いことが特徴で、今後画像処理の世界を大きく変える可能性があります。今回は、簡単に概要だけご紹介します。(今後、論文の詳細記事を掲載する予定です。) 現状の問題点 OpenAIの研究チームは、画像処理分野における問題点を以下のように指摘しています。 ⑴典型的な画像データセットは、視覚的概念の狭い集合しか扱えていないのに、作成に人手が必要で費用がかかる ⑵基本的なモデルは一つのタスクに最適化されており、別のタスクに応用が効かない ⑶ベンチマークテストではよい結果を出しても、実用の場で