最も一般的な視覚言語タスクの 1 つである視覚的質問応答 (VQA) と画像キャプション (CAP) には、画像内のテキストからの推論を必要とする類似のシーン テキスト バージョンがあります。明らかな

arxiv_readerarxiv_reader のブックマーク 2023/03/22 11:51

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

見て読めるモデルへ

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう