この作業の目標は、ドメイン固有のキャプション、質問応答、将来のイベント予測など、いくつかの例からさまざまなビデオからテキストへのタスクに一般化できる柔軟なビデオ言語モデルを構築することです。既存の数シ

arxiv_readerarxiv_reader のブックマーク 2022/05/25 10:00

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

画像記述子を備えた言語モデルは、強力な少数のショットのビデオ言語学習者です

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう