【勉強メモ】🖼️ LLMに適切な視覚表現を提供することで、画像理解と生成のタスクを解決できる可能性がある SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs(GPTにて要約)要約この研究では、大規模言語モデル(LLM)を用いて、視覚モーダリティのタスクを解決する手法が提案されました。LLMに適切な視覚表現を提供することで、画像理解や生成のタスクを達成することが可能です。研究では、画像をLLMが理解できるトークン空間に変換し、トークンを生成することで画像の生成を行うSemantic Pyramid AutoEncoder(SPAE)が