以下の記事が面白かったので、簡単にまとめました。 ・Video generation models as world simulators 1. はじめにこのテクニカルレポートでは、(1)あらゆる種類のビジュアルデータを、生成モデルの大規模学習できる表現に変換する手法、(2)「Sora」の能力と限界の定性的評価 について紹介しています。モデルと実装の詳細は含まれていません。 多くの先行研究では、リカレントネットワーク、生成的敵対ネットワーク、自己回帰変換器、拡散モデルなど、様々な手法を用いて映像データの生成的モデリングが研究されています。OpenAIの最大の動画生成モデルである「Sora」はビジュアルデータの汎化モデルであり、様々な時間、アスペクト比、解像度にまたがる動画や画像を生成することができます。 2. ビジュアルデータのパッチ化LLMパラダイムの成功は、テキスト、数学、様々な自然言