ビデオのビジュアル アンサー ローカリゼーション (VAL) の目標は、与えられた自然言語の質問に対する答えとして、ビデオから関連性のある簡潔なタイム クリップを取得することです。初期の方法は、ビデオ

arxiv_readerarxiv_reader のブックマーク 2022/10/31 10:00

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

クロスモーダル相互知識伝達による視覚的な回答ローカリゼーション

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう