タグ

ブックマーク / r9y9.github.io (6)

  • 統計的声質変換クッソムズすぎワロタ(チュートリアル編) | LESS IS MORE

    はじめに こんばんは。統計的声質変換(以降、簡単に声質変換と書きます)って面白いなーと思っているのですが、興味を持つ人が増えたらいいなと思い、今回は簡単なチュートリアルを書いてみます。間違っている箇所があれば、指摘してもらえると助かります。よろしくどうぞ。 前回の記事(統計的声質変換クッソムズすぎワロタ(実装の話) - LESS IS MORE)では変換部分のコードのみを貼りましたが、今回はすべてのコードを公開します。なので、記事内で示す声質変換の結果を、この記事を読んでいる方が再現することも可能です。対象読者は、特に初学者の方で、声質変換を始めたいけれど論文からコードに落とすにはハードルが高いし、コードを動かしながら仕組みを理解していきたい、という方を想定しています。役に立てば幸いです。 コード https://github.com/r9y9/VoiceConversion.jl Jul

    統計的声質変換クッソムズすぎワロタ(チュートリアル編) | LESS IS MORE
    labga
    labga 2016/12/10
  • 最近の音声信号処理遊びの進捗 | LESS IS MORE

    hello 遡ればもう約一年まえになるでしょうか、統計的声質遊びをしたいと思い、理論の勉強を始めたり、(特にJuliaで)コードを色々書いていました(お前ほんといろんな言語で遊んでるな、というツッコミはさておき)。統計的声質変換クッソムズすぎワロタ(チュートリアル編) - LESS IS MORE を書いていた当初は、当然自分のためだけに書いていて、まぁアレな出来でしたが、最近気を取り直して多少マシに仕上げましたので、何となくブログに書いてみようかなーと思った次第です。というわけで、最近公式に登録したいくつかのパッケージを、まとめて簡単に紹介します。 主な改善点は、windowsもちゃんとサポートするようにしたこと(誰得?)と、テストをきちんと書いたことと、julia的なインタフェースを意識するようにしたことですかね。3つ目はかなり曖昧ですが、まぁ気持ち使いやすくなったと思います。 パッケ

    最近の音声信号処理遊びの進捗 | LESS IS MORE
  • GOSSP - Go言語で音声信号処理 | LESS IS MORE

    C++からGoへ みなさん、C++で信号処理のアルゴリズムを書くのはつらいと思ったことはありませんか?C++で書くと速いのはいいけれど、いかんせん書くのが大変、コンパイルエラーは読みづらい、はたまたライブラリをビルドしようとしたら依存関係が上手く解決できず……そんな覚えはないでしょうか?謎のコンパイルエラーに悩みたくない、ガーベジコレクションほしい、Pythonのようにさくっと書きたい、型推論もほしい、でも動作は速い方がいい、そう思ったことはないでしょうか。 そこでGoです。もちろん、そういった思いに完全に答えてくれるわけではありませんが、厳しいパフォーマンスを要求される場合でなければ、Goの方が良い場合も多いと僕は思っています。 とはいえ、まだ比較的新しい言語のため、ライブラリは少なく信号処理を始めるのも大変です。というわけで、僕がC++をやめてGoに移行したことを思い出し、Goでの信号

    GOSSP - Go言語で音声信号処理 | LESS IS MORE
  • Pylearn2, theanoをEC2 g2.x2large で動かす方法 | LESS IS MORE

    モチベーション 手元のへぼマシンでニューラルネットの学習を回わす 半日たっても終わらない 最近だとGPU使って計算を高速化するのが流行りだが、手元にGPUはない Deep Learning in Python with Pylearn2 and Amazon EC2 手元にGPUがない…?大丈夫!Amazon EC2を使えば良さそう!!! というわけで、めんどくさいと言わずにec2にお手軽計算環境を整えます。ec2でGPUが乗ったものだと、g2.2xlargeがよさそうですね。 ちなみに↑の図、pylearn2のtutorialのRestricted Bolzmann MachinesをMNISTで学習した結果なんですが、手元のマシンだとだいたい6時間くらい?(忘れた)だったのがg2.2xlargeだと30分もかかってない(ごめんなさい時間図るの忘れた)。$0.65/hourと安いんだし(

    Pylearn2, theanoをEC2 g2.x2large で動かす方法 | LESS IS MORE
  • 音声分析変換合成システムWORLDのGoラッパーを書いた | LESS IS MORE

    音声分析変換合成システムWORLD WORLDとは、山梨大学の森勢先生が作られている高品質な音声分析変換合成システムです。非常に高品質かつ高速に動作するのが良い所です。詳細は以下のURLへ http://ml.cs.yamanashi.ac.jp/world/ オリジナルはC++で書かれていますが、Goからも使えるようにラッパーを書きました。非常にいいソフトウェアなので、もしよろしければどうぞ GO-WORLD https://github.com/r9y9/go-world 使い方について、ほんの少し解説を書きます ※ubuntu12.04でのみ動作確認してます。 準備 1. WORLDのインストール まずWORLDをインストールする必要があります。公式のパッケージではinstallerに相当するものがなかったので、作りました https://github.com/r9y9/world

    音声分析変換合成システムWORLDのGoラッパーを書いた | LESS IS MORE
    labga
    labga 2014/05/13
  • FFTを使った連続ウェーブレット変換の高速化 | LESS IS MORE

    そもそもウェーブレット変換って何 Jump to wikipedia いわゆる時間周波数解析の手法の一つで、音声、音楽、画像の解析に使われる。直感的には、STFTでいう窓関数の幅を周波数に応じて拡大・伸縮させて、時間変化する信号の特徴を上手く捉えようとする手法のこと 高速化の仕組み さて、題。ウェーブレット変換は、(スケールパラメータを固定すれば)入力信号とマザーウェーブレットのたたみ込みで表されるので、たたみ込み定理よりフーリエ変換を使った計算方法が存在する。 つまり、 入力信号とマザーウェーブレットをそれぞれフーリエ変換する 掛け算する 逆フーリエ変換する というプロセスでウェーブレット変換を求めることができて、かつフーリエ変換にはFFTという高速なアルゴリズムが存在するので、計算を高速化できるという仕組み。まぁ原理としてはシンプルなんだけど以外と面倒くさい(気のせい?)。 色々調べ

    FFTを使った連続ウェーブレット変換の高速化 | LESS IS MORE
  • 1