CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks 対照的な言語画像事前トレーニング(CLIP)は、視覚と言語モダリティを統合された埋め込みスペースにリンクし、視覚言語(VL)タスクの大きな可能性を生み出します。初期の並行作業では、タスクのサブセットでこの可能性の調査が開始されましたが、重要な質問が残っています。1)調査されていないVLタスクでのCLIPの利点は何ですか。 2)CLIPは、ローショットまたはドメインシフトのシナリオでメリットをもたらしますか? 3)CLIPは、推論や事前トレーニングの複雑さに影響を与えることなく、既存のアプローチを改善できますか?この作業では、2つの重要な貢献を通じてこれらの質問に答えることを目指しています。最初に、さまざまなデータ可用性の制約とドメインシフトの条件にわたって、Visua
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く