タグ

Deep Learningとlip synchに関するsuzukiMYのブックマーク (1)

  • ワシントン大学、機械学習で“口パク映像”を生成するシステム発表 音声から口の動きをリアルに再現して合成映像に

    米ワシントン大学の研究者らが、機械学習を使って音声データから口の動きをリアルに再現するシステムを開発しました。 学習したデータを元に、口部分と音声だけをすり替えた合成映像を自動的に生成するというもの。インプットされた音声から、ベースとなる口の形を作った後、映像に当てはめる仕組みになっています。このシステムに関する論文を執筆したSupasorn Suwajanakorn氏によれば、口は人間が不自然さを感じやすく、「不気味の谷」に陥りやすい場所。しかし、発表された米国オバマ前大統領の合成映像はとてもリアルで、あたかも当にしゃべっているかのように見えます。 このような合成は以前から可能だったものの、スタジオで複数人の口の動きを撮影する必要が。しかし、今回発表されたシステムはインターネット上の動画などに対応しており、低コストで使用できるようになっています。ちなみに、今回発表された合成映像にオバマ

    ワシントン大学、機械学習で“口パク映像”を生成するシステム発表 音声から口の動きをリアルに再現して合成映像に
  • 1