ビデオの理解は、グローバルコンテンツを認識し、その内部接続(因果関係、動き、時空間対応など)をモデル化することに依存しています。これらの相互作用を学習するために、VQ-VAEを介して生成された離散化さ

arxiv_readerarxiv_reader のブックマーク 2021/06/22 12:28

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

VIMPAC:マスクされたトークン予測と対照学習によるビデオ事前トレーニング

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう