捉え方としては「GPT-4が視覚を持つようになったもの」なのでテキストタスクも引き続きGPT-4と同等の精度で扱える URLでもBase64エンコードした画像のどちらでもOK png jpeg webp git(アニメーション無しのものに限る)を受け付けている 特性 Limitationsの欄に、どんな画像が苦手なのかが書いてありますね。 日本語や韓国語などの非ラテンアルファベットテキストは苦手 チェスの盤面など正確な空間定位が必要なタスクは苦手 上下逆さまの画像は誤って解釈される可能性がある 特定の状況(?)で誤った説明やキャプションを生成することがある APIにCAPTCHA画像を投げてもシステムによってリジェクトされる など。 それでも、「画像を解釈して文字にする」という能力に誰もが触れるようになったのはたいへん力強いと思います。 色々遊んでみた実験に使ったコードさくっと試したかった