Stable Diffusionなどの事前学習済みモデルに対して、輪郭線や深度、画像の領域区分(セグメンテーション)情報などを追加して出力をサポートする技術が「ControlNet」です。このControlNetを使うことで、別途に読み込ませた画像に写っている線画や人の姿勢などを出力結果に強く反映させることが可能です。このControlNetを複数使用する「Multi ControlNet」で実写の映像を忠実にアニメ化したムービーが、オンライン掲示板のRedditで公開されました。 I transform real person dancing to animation using stable diffusion and multiControlNet : r/StableDiffusion https://www.reddit.com/r/StableDiffusion/comment