OpenAIのGPTプロンプトを用いて「PaperSummarizer」を作成し Make-A-Videoの論文を要約してもらいました 『Make-A-Video: Text-to-Video Generation without Text-Video Data』https://arxiv.org/abs/2209.14792 以下がまるごと要約結果になります INTRODUCTION インターネットからHTMLページから大量の(alt-text, image)ペアを収集することで、テキストから画像へのモデリングにおいて最近の突破がもたらされています。 しかし、ビデオに対して同様の成功を再現することは限定されており、(text, video) データセットを容易に収集できないためです。 既存の画像を生成できるモデルが既に存在するなら、テキストからビデオ (T2V) モデルをスクラッチから訓