サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
猫
tosaka-mn.hatenablog.com
7月何も書いてなかったので無理やりネタをひねり出してみました。 モデルは前回記事で試してみた GlowTTS + MBMelGAN をちょこっと改造したものを使ってます。 小説はフリーで利用できる青空文庫のうち宮沢賢治作の「春と修羅」の序と「注文の多い料理店」の二つを読ませてみました。(「春と修羅」は詩集ですが ) 漢字混じりの文章をひらがなにするのに yahoo ルビふり api を利用しています。読みが変な箇所をごく一部手直ししましたが、あまりちゃんと確認してないので読みが間違っている箇所とかあるかもしれませんがご了承ください。 原文はそれぞれこちらです。 「春と修羅」 「注文の多い料理店」 生成音声 「春と修羅」 「注文の多い料理店」 こんな感じでした。CPU でも音声時間の 1/10 程度の時間で生成することが出来ます。 ちなみに「春と修羅」はまちカドまぞくでも一節が引用されており
はじめに データ収集編のつづきです。 次は用意したデータを用いて音声合成を行う Deep Learning モデルを作成する作業になります。 今回使用したモデルは Nvidia の Tacotron2 + Waveglow です。 このモデルは、例えば JSUT のデータをダウンロードしてデータの前処理をして Readme に従いモデルを作るだけで十分良いものができるのでパッと音声合成を試してみたい人にもオススメです。 (残念ながら他の手法を試したことがないので比較とかはできません。例えば、Mozilla が作ってたりもしてるようです。。今のデファクトスタンダードはどれなんでしょうか。) 音声合成モデル概要 Tacotron2 + Waveglow による音声合成の流れはこんな感じです。 音声合成モデル概要図 この図にある Tacotron2 と Waveglow の部分を用意したデータを
はじめに みなさんは Siri とかカーナビとか音声ガイダンスの声が自分の好きなキャラクターの声だったらなーと思ったことはありますか?ありますよね?私は別に思ったことはありませんが。 あの辺りの音声生成は音声合成と呼ばれる技術が使われていて可愛い系の声だと VOICEROID シリーズ (ゆかりさん、琴葉姉妹) とかが有名ですね。 私もあんな感じのが自分の好きなキャラクターで欲しいなーと思ったので Deep Learning の力を借りてとあるアニメキャラの VOICEROID 作りに挑戦してみました。 闇に葬ろうかとも考えていましたが溜まった知見が失われるのもちょっと勿体無い気がしたのでブログでまとめていこうと思ってます。 出来上がったもの サンプル1 (誰かわかるかな? 発言は適当) もうちょっとサンプルも載せておきます。 サンプル2 サンプル3 うまく行かないケースについて説明しても
このページを最初にブックマークしてみませんか?
『MLエンジニアのモノづくり日記』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く