音声合成に関するshogen2018のブックマーク (12)

  • End-to-End音声処理ツールキットESPnetの紹介 - Qiita

    以下の内容は、2019年12月時点での最新バージョンであるESPnet Version 0.6.0の内容に基づいています。 はじめに 名古屋大学でポスドクをやりながら、株式会社Human Dataware Labで働いている林知樹 (@kan-bayashi)と申します。 音信号処理に関わる研究をしています。好きなエディタはVim / Neovimです。 今日は、私が開発に参加しているEnd-to-End音声処理ツールキットESPnetについて簡単に紹介したいと思います。 ESPnetとは? ESPnetは、End-to-End (Sequecne-to-Sequence)モデルに特化したオープンソースの音声処理ツールキットです。 ジョンズ・ホプキンス大学の渡部晋治氏をリーダーとして、様々な大学や研究機関、企業に属する日人が中心となり開発を進めています。 ありがたいことに、既に様々な海外

    End-to-End音声処理ツールキットESPnetの紹介 - Qiita
    shogen2018
    shogen2018 2021/10/04
    ESPnetの紹介
  • Gnuspeech - GNU Project - Free Software Foundation (FSF)

    gnuspeech What is gnuspeech What is the goal of the gnuspeech project? Releases? Development & “Coming Soon” Why is it called gnuspeech? Getting help with gnuspeech Manuals Finding additional packages for gnuspeech Further information If you want to help with gnuspeech Those who have helped research, develop and port gnuspeech What is gnuspeech? gnuspeech makes it easy to produce high quality comp

    Gnuspeech - GNU Project - Free Software Foundation (FSF)
  • Speech Structure Recognition

  • 数値計算ソフトを使って音声の波形の生成を理解する その6 鼻音の「な」「ま」の生成

    鼻の効果を含む音源 鼻音感を出すため、声道の振動の波形に可変ローパスフィルターを掛けた音源を使う。 複雑な鼻の効果を単純化して、音源にローパスフィルターを掛けることで代用する。 下図は生成の概念図である。 鼻音感を出すための可変ローパスフィルターは、声が鼻から口に切り替わるところで、カットオフ周波数を変化させる。 はじめの鼻から息が出ているときは、ローパスフィルターのカットオフ周波数はかなり低くし、出力の波形はsin波に近くなる。 声が口からに切り替わった後でも、鼻の効果を残すため、カットオフ周波数が高めのローパスフィルターを掛けいる。 下図は、声道の振動の波形(入力)にフィルターを掛けた波形(出力)と、ローパスフィルターのカットオフ周波数の時間変化である。鼻の効果を含む音源として使う。 「な」音の作成 上記の音源を、時間経過とともに管の断面積と長さが変化する、2つの管(チューブ)をつなぎ

  • 数値計算ソフトを使って音声の波形の生成を理解する その4 摩擦音の「さ」音の生成

    2つの管(チューブ)をつなぎ合わせた模型と、乱流音を代用するノイズ音源を使って 「さ」の音の生成を実験してみた。 音としては、先行するノイズ音とそれに続く母音の音から合成される。 先行するノイズは、「か」の場合は口内を舌で狭め強い圧力を一瞬かける短期的なものであるのに対して、「さ」は歯先に息を吹きかけて発生させる乱流音のため 高い周波数になり、状態が持続的である。 後続の母音部分の作成 時間経過とともに管の断面積と長さが変化する、2つの管(チューブ)をつなぎ合わせた模型を使って母音の部分を生成する。 口を閉じた状態(start)から、「あ」の発生の状態(target)まで、時間変化させる。 先行するノイズ部分の作成 乱流音を代用するノイズには、息の吹きかけによる息の速度の上昇の影響と、乱流が発生する場所の周囲との共鳴効果が考えられる。 (子音の発生を参照のこと) まず、息の速度の加速上昇に

  • 数値計算ソフトを使って音声の波形の生成を理解する その5  破裂音「が」「か」音の生成

    先回の乱流音を代用するノイズ音源を使って摩擦音の「さ」音の生成に続き、破裂音の「が」「か」音の生成の実験をおこなってみた。 破裂音は、爆風(破裂)とそれに続く乱流音源と、声帯を振動した音源による共鳴音を経由して母音の「あ」の部分から構成する。 爆風(破裂)の作成 爆風現象によって生成される波の周波数特性は、1/fの特性をもつといわれている。 1/fの特性をそのまま使うと、低域でも振幅が小さくなりすぎて共鳴効果があらわられにくくなるため、 DCからある周波数まではフラットな特性でそれ以降は1/f特性に近いものを、 ヒルベルト変換を使って最小位相特性をもつインパルス応答の波形として生成した。 下図は、生成した波形と周波数特性である。音(wav)になる。 乱流音の作成 乱流音を代用するノイズを、先回の摩擦音のときと同様に、パーリンノイズの手法を応用して作成した。 摩擦音との違いは、低くめの周波数

  • 数値計算ソフトのSCILABを使って音声の波形の生成を理解する その2

    2つの管(チューブ)をつなぎ合わせた模型による音声波形の生成のページでは、2つの管(チューブ)のつなぎ合わせた模型で生成できるのは 「あ」と「え」と 「う」の3つの音に限られると書いた。そこで、3つの管(チューブ)をつなぎ合わせれば、「お」の音を生成できるかどうかの実験をしてみた。 「お」の音は、「あ」の音を起点として、それに「う」の効果をつなぎ合わせたものである(仮説)。 下図はつなぎ合わせを説明するためのもので、管の断面積をイメージしたものである。3つの部分(管)からなっている(1番上に絵)。 左と中央の青色に塗られた2つの管は「あ」の構造をしており、(2番目の絵) 更に、中央と右の青色に塗られた2つの管は「う」の構造をしている。(1番下の絵) 参考に、ここで生成した「お」の音(発音記号の/O/)のwavサンプルをリンクしておこう。 また、管による声道モデルを計算するpythonプログ

  • Loading...

    Loading...
    shogen2018
    shogen2018 2018/11/15
    WRITER: dhgrs
  • 数値計算ソフトのSCILABを使って音声の波形の生成を理解する その1

    人間の声の発生の過程を単純化した模型をつかって、音声の波形の生成を理解してみよう。 声の発生は、まず、のどの下にある声門で声帯が振動することで、下図の左側の青色のような形の波形が発生する。そして、声帯から喉そして口の中から唇まで の間を下図の真中のように2つの管(チューブ)がつなぎ合わさった物で置き換えてみる。先ほどの青色の波形がこの2つの管に入力されるとある特定の音の組 み合わせで共鳴しよく響く。そして、口から出てくる空気の流れ、つまり音声を、音圧を検出するマイクで音を拾うと、下図の右側の赤色のような波形になる。 実際の声門の波形はもっと複雑だし、声帯から喉そして口の中から唇までは途中曲がっていて歯も舌も鼻もあるのに、たった2つの管(チューブ)のつなぎ合わ せで置き換えるのはちょっと 飛躍しすぎている感があるが、こんな簡単化した模型でも、何となく「あ」とか「え」とか聞こえるのである。「あ

  • DNNを用いたTTS手法の調査

    dnn_tts_survey.md TTSについて 以下の図がよくまとまっている。[1] モデルによって音声合成の中でどこまでの仕事を担当しているかが異なる。 DNNを用いないボコーダー ボコーダー部分にはDNNを用いないことも多い。以下の2つはそこで用いられている代表的な物である。 逆短時間フーリエ変換(+Griffin-Limによる位相推定[15]) スペクトログラムを元に波形を生成する。 参考 [16] Griffin-Limに関する日語の簡単な説明。 WORLD [16] (D4C edition [17]) 手法ではなくツールの名前。 言語特徴量と音響特徴量を元に波形を生成する。 参考 [18] オープンソース(Pythonからも容易に利用可能) DNNを用いたボコーダー ボコーダー部分にDNNを用いる場合、主にWaveNetベースの物が使われる。 WaveNet[2] ボコー

    DNNを用いたTTS手法の調査
  • WORLD

    WORLDについて WORLDは,Vocoderのアイディアを発展させた音声分析変換合成システムです. 発達した計算機能力を駆使し,高品質で柔軟な音声分析・変換・合成の実時間処理を目的としています. UTAUの合成エンジン,また音声創作ソフトウェアCeVIOの音声分析の一部にもWORLDが使われています. 新着情報

    shogen2018
    shogen2018 2018/10/16
    音声分析合成システム
  • WaveNet - A Generative Model for Raw Audio [arXiv:1609.03499]

    WaveNet - A Generative Model for Raw Audio [arXiv:1609.03499] 概要 WaveNet: A Generative Model for Raw Audio を読んだ Chainer 1.12で実装した はじめに Google DeepMindが音声生成の新たな手法を開発し発表しましたが、これが従来手法を大きく超える高い品質の音声を生成できると話題になりました。 発表から数日でGitHubには様々な実装が公開されましたが、私もChainerで実装してみました。(→GitHub) このWaveNetを実装するにあたり、 実装の詳細が論文に書いていない 1秒の音声を生成するのに90分かかる 学習コストが大きい といった点に注意が必要です。 特に音声生成はリアルタイムで行えるような速度が出ません。 DeepMindの中の人のツイートによると

    shogen2018
    shogen2018 2018/10/16
     End2Endをめざすのは分かるけれど、 結局、いろいろなパターンを再生できる複雑なネットワーク・メモリーと違いますか?
  • 1