2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第22回目は、AIが不得意とする指の数を修正する技術やStability AIの動画生成モデルなど、生成AI最新論文の概要5つをお届けします。 生成AI論文ピックアップ人間が話すような音声合成でテキストを読み上げるTTSモデル「StyleTTS 2」 コロンビア大の研究者ら開発 Stability AI、画像から動画を生成するモデル「Stable Video Diffusion」発表 画像と動画を同時に扱う大規模視覚言語モデル「Video-LLaVA」 北京大などが開発 テキストから3Dモデルを生成する新型モデル「LucidDreamer」 他に影響を与えず表情や年齢