katapのブックマーク - はてなブックマーク

katap id:katap

ブックマーク / note.com/daichi_mu (1)

【勉強メモ】🖼️ LLMに適切な視覚表現を提供することで、画像理解と生成のタスクを解決できる可能性がある　SPAE: Semantic Pyramid AutoEncoder for Multimoda｜だいち
【勉強メモ】🖼️ LLMに適切な視覚表現を提供することで、画像理解と生成のタスクを解決できる可能性がある　SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs（GPTにて要約）要約この研究では、大規模言語モデル（LLM）を用いて、視覚モーダリティのタスクを解決する手法が提案されました。LLMに適切な視覚表現を提供することで、画像理解や生成のタスクを達成することが可能です。研究では、画像をLLMが理解できるトークン空間に変換し、トークンを生成することで画像の生成を行うSemantic Pyramid AutoEncoder（SPAE）が
katap 2024/02/21
後で読む

AI

memo
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx