We’re introducing a neural network called CLIP which efficiently learns visual concepts from natural language supervision. CLIP can be applied to any visual classification benchmark by simply providing the names of the visual categories to be recognized, similar to the “zero-shot” capabilities of GPT-2 and GPT-3. Although deep learning has revolutionized computer vision, current approaches have se
今回はOpenAIの『CLIP(Contrastive Language-Image Pre-training)』を解説したいと思います。 CLIPは画像の分類に利用されるモデルですが、今までのモデル ... CLIP(Contrastive Language-Image Pre-training)は、自然言語処理と画像処理を融合したモデルです。 大量の画像とテキストのペアをインターネットから取得し、巨大なモデルを学習することで、zero-shotの設定(初めて見た画像に対する分類等)で分類することが可能になっています。 以下は、ImageNetで学習したモデル(ResNet)とCLIP(Vision Transformerベース)の比較結果です。 上段のImageNetにある画像やImageNetに近い画像であればResNetでもある程度の精度が出ていますが、3段目より下になると精度が大
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く