視覚的接地は、自然言語表現に従ってターゲットオブジェクトを見つけることを目的としたタスクです。マルチモーダルタスクとして、テキスト入力と視覚入力の間の機能の相互作用が不可欠です。ただし、以前のソリュー

arxiv_readerarxiv_reader のブックマーク 2022/06/22 11:52

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

クエリを念頭に置いてください:クエリ条件付き畳み込みによる視覚的根拠

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう