AIチャットサービス「ChatGPT」のモデルの1つ、GPT-4oは、人間から受け取ったテキストをまず「トークン」に処理した後、AIが扱いやすい数値ベクトルに変換して計算を行います。画像でも同様の処理を行いますが、その際にどのような処理をしているのか、プログラマーのオラン・ルーニー氏が推測しました。 A Picture is Worth 170 Tokens: How Does GPT-4o Encode Images? - OranLooney.com https://www.oranlooney.com/post/gpt-cnn/ GPT-4oが高解像度の画像を処理する際は、画像を512x512ピクセルのタイルに切り分けて処理し、1タイル当たり170トークンを消費します。この「170トークン」という数字に着目したルーニー氏は、「OpenAIが使う数字にしては中途半端すぎる」と指摘し、な