Stable diffusion[1]では,A road sign with the word "apple" と入力すれば,上の画像のように,文字を画像化することが可能です. 一方で,下の画像のように「意味に対応する文字列っぽいもの」がそれとなく表示されるものの,果たして本当に”文字”として学習しているのか?という疑問を持ったため,簡単に実験してみました. Character-Aware Models Improve Visual Text Rendering.[3]では,画像生成とその画像文字の質に関する精度が大規模に実験されています.中でも,Stable Diffusionや,Imagen[4]では,文字画像生成にはにはミスが多く存在し,画像生成にバイトレベルTransformer(ByT5[5])を用いると,文字の生成クオリティが向上したとの結果が報告されています. 今回は,文字列