はじめに こんにちは!AI エンジニアのヤマゾーです。 ここ数年生成 AI の進化が目覚ましく、生成テキストの品質だけでなく画像の理解力も各段に向上しつつあります。例えば以下の記事を書いた時の ChatGPT は画像中に書かれた日本語を殆ど読めなかったのですが、現在は難しい漢字もスラスラ読めるようになっています。 その他にも、X ではインフルエンサーの「〇〇を読めた!」「〇〇を扱えた!」という投稿を毎日のように見かけます。中には再現性や新規性が怪しい投稿も含まれるようですが、ここまで活発かつ継続的に多くの進展が報告されるのは異例の事態です。 それでは、現時点における生成 AI は実際どこまで日本語の画像を理解できるのでしょうか? 本記事ではこの疑問に答えるべく、三大生成 AI である ChatGPT、Gemini、Claude を対象にオリジナルのテストを行い、初学者向けに解説しようと思い