なるほど、1段目はBLIPの画像→テキストで、2段目は既存LLM(FlatT5)かませてLLMが知ってる情報も使って出力するのか~、面白い

secondlifesecondlife のブックマーク 2023/07/05 08:55

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

論文まとめ:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large

    タイトル:BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 著者:Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi(Saleforce Research) 論文UR...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう