petite_blueのブックマーク / 2023年11月8日

VOICEVOXのAudioQueryを利用した音声合成に対する非音声ベースのLipSyncシステム

モチベーション「LipSync」で検索をすると、音声を解析して2D/3Dのモデルの口の形状を発話の音声と同期させる話が出てくると思います。 LipSyncが必要になるケースは、リアルタイムにマイクなどで収音した音声をベースに口を動かしたい場合（VTuberのLive2DやVR SNSのアバター）や、事前に収録した音声に細かい調整をせずに直接アニメーションを生成したい場合などがほとんどだからでしょう。そのため、そのようなユースケースを想定した音声解析ベースのライブラリやアセットがほとんどです。ところで、ChatGPTのAPIで生成した会話のテキストは、VOICEVOXなどの音声合成サービスを利用することで音声データに変換し利用することができます。この場合、音声ではなくリアルタイムに生成されるテキストをベースにLipSyncをしたい、という上記とは異なる需要があります。もちろん音声合成

はてなブックマーク

タグ

2023年11月8日のブックマーク (1件)

VOICEVOXのAudioQueryを利用した音声合成に対する非音声ベースのLipSyncシステム

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス