各モダリティ (CLIP など) に個別のエンコーダを備えた視覚と言語 (VL) モデルは、ゼロショット画像分類と画像テキスト検索の頼りになるモデルになっています。ただし、これらのモデルの評価の大部

arxiv_readerarxiv_reader のブックマーク 2023/06/16 11:52

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Babel-ImageNet: 視覚と言語表現の大規模多言語評価

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう