モチベーション 「LipSync」で検索をすると、音声を解析して2D/3Dのモデルの口の形状を発話の音声と同期させる話が出てくると思います。 LipSyncが必要になるケースは、リアルタイムにマイクなどで収音した音声をベースに口を動かしたい場合(VTuberのLive2DやVRSNSのアバター)や、事前に収録した音声に細かい調整をせずに直接アニメーションを生成したい場合などがほとんどだからでしょう。 そのため、そのようなユースケースを想定した音声解析ベースのライブラリやアセットがほとんどです。 ところで、ChatGPTのAPIで生成した会話のテキストは、VOICEVOXなどの音声合成サービスを利用することで音声データに変換し利用することができます。 この場合、音声ではなくリアルタイムに生成されるテキストをベースにLipSyncをしたい、という上記とは異なる需要があります。 もちろん音声合成
![VOICEVOXのAudioQueryを利用した音声合成に対する非音声ベースのLipSyncシステム](https://cdn-ak-scissors.b.st-hatena.com/image/square/ccbe26e2e1e88846ca233b0926884338cb05cdde/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--5KJE2cwy--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3AVOICEVOX%2525E3%252581%2525AEAudioQuery%2525E3%252582%252592%2525E5%252588%2525A9%2525E7%252594%2525A8%2525E3%252581%252597%2525E3%252581%25259F%2525E9%25259F%2525B3%2525E5%2525A3%2525B0%2525E5%252590%252588%2525E6%252588%252590%2525E3%252581%2525AB%2525E5%2525AF%2525BE%2525E3%252581%252599%2525E3%252582%25258B%2525E9%25259D%25259E%2525E9%25259F%2525B3%2525E5%2525A3%2525B0%2525E3%252583%252599%2525E3%252583%2525BC%2525E3%252582%2525B9%2525E3%252581%2525AELipSync%2525E3%252582%2525B7%2525E3%252582%2525B9%2525E3%252583%252586%2525E3%252583%2525A0%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Amochineko%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9saDMuZ29vZ2xldXNlcmNvbnRlbnQuY29tL2EtL0FPaDE0R2pSU1ZsbVdKVVgtRTJsZURDMFF6Y3diMjctbGNBOU1GNm9ONE5PT1E9czI1MC1j%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)