この記事はLLM・LLM活用 Advent Calendar 2025の22日目の記事です。 はじめに 先日、個人開発で作成したLLMベースのTTSモデルであるT5Gemma-TTSというモデル・関連コードなどを公開しました。 モデルカードなどでも触れていますが、このモデルのアーキテクチャなどはVoiceStarというTTSモデルの論文・実装に基づいています。 VoiceStarの論文はこちらです。 また、実装も以下のリポジトリで公開されています。 本記事では、このVoiceStarの論文解説を行います。 Neural Codec Language Modelについて 論文解説に進む前の前提知識として、現在開発が盛んなTTSモデルであるNeural Codec Language Modelの基礎についてここで解説します。VoiceStarもこれに分類されるモデルです。 このNeural C

