AIの技術的進化において、テキストによる画像生成はそのほかの分野に比べて視覚的に「わかりやすく凄い」というのも相まって、広く認知されるようになった。約6年前は鳥の姿形をようやく制御できるかできないか(※1)という具合だったのにもかかわらず、現在では鳥に限らず様々なコンテンツを、美しく高解像度に生成できるようになった。 しかし、文字の完全な描写には未だ困難が伴っている。試しにAdobeが提供する画像生成AI『Firefly』にSign with the words "Real Sound" painted on it(訳:"Real Sound"という文字の描かれた看板)と入力して画像を生成してみよう。 こちらの期待に反して看板に描かれているのはすべて大文字であり、SOUNDの"N"が抜けてしまった。 この生成はなぜ失敗してしまったのか、そしてAIが文字を生成することはなぜ難しいのか。本記事