最近では「Fish Speech」という新しいオープンソースのボイスクローンTTSが登場しています。日本語もサポートしているので、使ってみました。イントネーションがかなり変ですが、使えることは使えます。 さて、そんな中、HeyGenのボイスクローンTTSを使う必要性があるかというと、2つポイントがあります。 まず、動画モデルと統合されているので、オーディオデータを解析して反映されるより自然なものになるのではないかという期待。 もう一つは、HeyGenのボイスクローンTTSは、おそらくOpenAIの技術だからです。OpenAIが3月末に「Voice Engine」を発表したとき、アーリーアダプターとして挙げていたのがHeyGenでした。 ■HeyGenでボイスクローンしてみた妻の声で喋ってもらうとして、何を話してもらおうかとしばらく悩みました。本人の声と姿である必然性が要求されるからです。