概要 リップシンクとは, ゲームのキャラクターなどが口をパクパクさせるやつです. 面白そうなので, なんとなくこれを作ってみました. リップシンクの手法は軽く調べた限り 手動で頑張る 音量の大小でテキトーに口動かす 映像から口の形を引っこ抜く 音から口の形を類推する があるようです. 今回は一番下の音から口の形を類推させてみました. モデルの方針 声のデータから口の形≒母音の種類を当てる分類モデルを作ります. そのために, データセットとして「音声」と「母音の文字」のセットを作ります. データセットについて 方針としては 「音源」と「その音源の文字起こし」のセットを取得 「その音源の文字起こし」を仮名に直す 「音源」のどの時間に, その仮名を言っているのか割り当てる 「音源」と「その音源の文字起こし」のセットを取得 「音源」と「その音源の文字起こし」の2つがセットになっているデータを片っ端