ブースは、韓国の音声AI企業Supertoneが出展したもの。角刈りオジサンの美少女ボイスは、リアルタイム音声変換ソフト「SHIFT」のデモによるものだった。このSHIFT、少女だけでなく少年、成人女性、成人男性、渋いおじいさん、悪魔などさまざまな声がプリセットされており、リアルタイムかつ高精度に声を変換できるのが特徴。 独自の音声合成基盤モデル「NANSY」(Neural Analysis & Synthesis)を採用しており、ユーザーの声の事前学習も、10秒程度のサンプルスクリプトを読み上げるだけで完了。ユーザーとキャラクターの音声の混合比率や感情の表現度合い、音の高低なども細かく調整可能だ。 同様の技術として「RVC」(Realtime Voice Changer)などが有名だが、快適に利用するにはNVIDIAの高性能なGPUを必要とする。一方、SHIFTはCPUのみで47ミリ秒と
![角刈りオジサンから美少女ボイス 「GPU不要で超低遅延」なリアルタイム音声変換ソフトを見てきた](https://cdn-ak-scissors.b.st-hatena.com/image/square/5b277a6f4c17b100ee6280f535a553d879ef267b/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fnews%2Farticles%2F2407%2F03%2Fcover_news182.jpg)