最近の大規模なビデオ言語の事前トレーニング済みモデルは、さまざまなダウンストリーム タスクで魅力的なパフォーマンスを示しています。ただし、何百万ものビデオとテキストのペアが必要であり、各ビデオのデータ

arxiv_readerarxiv_reader のブックマーク 2022/10/24 11:36

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

LiteVL: 強化された時空間モデリングによる効率的なビデオ言語学習

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう