エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
【論文要約】テキストから画像を生成する「DALL-E」 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
【論文要約】テキストから画像を生成する「DALL-E」 - Qiita
はじめに 2021年にOpenAIによって公開された、テキストを画像に変換する「DALL-E」についてまとめました... はじめに 2021年にOpenAIによって公開された、テキストを画像に変換する「DALL-E」についてまとめました。 生成した画像 「バレリーナの衣装を着て、犬の散歩をする赤ちゃん大根」の画像です。データセットにない画像も生成できるのが強みのようです。 GANを用いた既存手法と比較しても生成画像の精度の高さが分かります。 要約 テキストから画像を生成する従来の研究は、以下のような問題がありました。 ドメイン特化のデータセットを利用 複雑なアーキテクチャになりがち セグメントマスクや物体ラベルなどの副次的な情報が必要 本研究では、テキストと画像のトークンを単一のデータストリームとして自己回帰的にTransformerで学習することで、シンプルなアーキテクチャながらも既存法に匹敵する精度を出しました。 結論 ドメイン特化の手法と比較したり、単一の生成モデルとしての能力を調べると、いい精度でした

