大規模な画像とテキストのペアで事前トレーニングされた視覚言語モデル (VLM) は、さまざまな視覚タスクで印象的な伝達可能性を示しています。このような強力な VLM から知識を伝達することは、効果的な

arxiv_readerarxiv_reader のブックマーク 2023/03/28 12:04

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

事前トレーニング済みの視覚言語モデルを使用したビデオ認識のための双方向のクロスモーダル知識探索

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう