2014/10/12 追記 少なくともGVのコードに致命的なバグがあったことがわかりました。よって、あまりあてにしないでください…(ごめんなさい こんにちは。 最近、統計的声質変換の勉強をしていました。で、メジャーなGMM(混合ガウスモデル)ベースの変換を色々やってみたので、ちょろっと書きます。実は(というほどでもない?)シンプルなGMMベースの方法だと音質クッソ悪くなってしまうんですが、色々試してやっとまともに聞ける音質になったので、試行錯誤の形跡を残しておくとともに、音声サンプルを貼っておきます。ガチ勢の方はゆるりと見守ってください 基本的に、以下の論文を参考にしています T. Toda, A. W. Black, and K. Tokuda, “Voice conversion based on maximum likelihood estimation of spectral pa
声の種類と発声のしくみ 1.声ってどんなもの? 2.母音の発声のしくみ 3.子音の発声のしくみ 1.声ってどんなもの? 言葉は人間がいちばん最初に作った文明といわれ、100万年前に母音らしきものが生まれました。その後、5万年の間に子音が加わり、現在の音声(言葉)の原型ができあがりました。これから、音声信号の性質について学習して行きましょう。まず、図1.にいろいろな音声信号を示します。 ここで、図1.から音声信号の性質を考えてみましょう。 周期的である 波形をみると最初にわかる性質です。しかし、この性質は/a/,/i/,/u/,/e/,/o/などの母音や/n/鼻音にみられる性質で、/s/や/k/などの子音にはみられません。この周期は『ピッチ』と呼ばれており、声の高さを決める要因です。 音韻により波形の形が違う 楽器の音色が違うように音韻により聞こえ方(波形の形)が違っています。これは『ホル
PSOLA を用いたピッチ加工の評価実験 Evaluation Experiment of Pitch Modification Using PSOLA 田坂 直季† 津田 浩利† 小坂 直敏† Naoki TASAKA† Hiromichi TSUDA† Naotoshi OSAKA† † 東京電機大学 † Tokyo Denki University 1. はじめに TD-PSOLA 方式[1]は音声を対象にした時間伸縮 およびピッチ加工の優れた方式である。本稿では、 同方式を楽音に適用して音質評価実験をした結果に ついて述べる。 2. PSOLA(ピッチ同期オーバーラップ加算) ピッチ同期オーバーラップ加算(Pitch-Synchronous Overlap-Add) と は、 音のピ ッチ 周期 と同 期し て OLA(Overlap-Add)を行う方式である。本稿では時間 伸縮
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く