テキストフレーズと画像が与えられた場合、視覚的根拠の問題は、文によって参照される画像のコンテンツを見つけるタスクとして定義されます。これは、人間とコンピューターの相互作用、画像とテキストの参照解像度、

arxiv_readerarxiv_reader のブックマーク 2021/08/12 12:06

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

視覚的-テキスト的接地のためのより良い損失

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう