タグ

ブックマーク / r9y9.github.io (7)

  • pysptk: SPTKのpythonラッパーを作った (part 2) | LESS IS MORE

  • Restricted Boltzmann Machines with MNIST | LESS IS MORE

    ディープ某を使った研究を再現してみたくて、最近某ニューラルネットに手を出し始めた。で、手始めにRestricted Boltzmann Machinesを実装してみたので、 MNISTを使って学習した結果の重み(22*22=484個)を貼っとく(↑) 得た知見をまとめとく Goのコード貼っとく ってな感じで書いておく (当はRBMについて自分なりの解釈を書こうと思ったのだけど、それはまた今度) 実験条件 データベースはmnist。手書き数字認識で有名なアレ。学習の条件は、 隠れ層のユニット数: 500 mini-batch size: 20 iterationの回数: 15 対数尤度の変化 以下グラフに表示している生データ 0 -196.59046099622128 1 -70.31708616742365 2 -65.29499371647965 3 -62.3798326737802

    Restricted Boltzmann Machines with MNIST | LESS IS MORE
  • JuliaTokyo #3 Speech Signal Processing in Julia | LESS IS MORE

    コード https://github.com/r9y9/JuliaTokyo3 三行まとめ 発表の内容を三行でまとめると、 音声ファイルの読み込み(or 書き込み)は[WAV.jl]((https://github.com/dancasimiro/WAV.jl)を使おう 基的なデジタル信号処理は JuliaDSP/DSP.jl をチェック(※JuliaDSPにはウェーブレットとかもあるよ) 音声に特化した信号処理は、r9y9/WORLD.jl がオススメです という感じです。 応用例として、歌声を分離する話(デモコード)、統計的声質変換(統計的声質変換クッソムズすぎワロタ(チュートリアル編) - LESS IS MORE)、画像をスペクトログラムに足しこむ話とか、さっと紹介しました。 補足 僕が使う/作ったパッケージを、あとで見返せるように最後のスライドにまとめておいたのですが、改めてこ

    JuliaTokyo #3 Speech Signal Processing in Julia | LESS IS MORE
  • MLSA digital filter のC++実装 | LESS IS MORE

  • MLSA フィルタの実装 | LESS IS MORE

    音声合成に使われるMLSA(Mel-Log Spectrum Approximatation)フィルタを実装したいんだが、なにぶんわからん。SPTKにコードはあるけれど、正直理解できない。デジタル信号処理を小学一年生から勉強しなおしたいレベルだ と、前置きはさておき、MLSAフィルタの実装を見つけたのでメモ。ここ最近ちょくちょく調べているが、SPTK以外で初めて見つけた。 Realisation and Simulation of the Mel Log Spectrum Approximation Filter | Simple4All Internship Report Simple4Allという音声技術系のコミュニティの、学生さんのインターンの成果らしい。ちらっと調べてたら山岸先生も参加してる(た?)っぽい。 上のreportで引用されているように、MLSA filterの実現方法に

    MLSA フィルタの実装 | LESS IS MORE
  • 統計的声質変換クッソムズすぎワロタ(チュートリアル編) | LESS IS MORE

    はじめに こんばんは。統計的声質変換(以降、簡単に声質変換と書きます)って面白いなーと思っているのですが、興味を持つ人が増えたらいいなと思い、今回は簡単なチュートリアルを書いてみます。間違っている箇所があれば、指摘してもらえると助かります。よろしくどうぞ。 前回の記事(統計的声質変換クッソムズすぎワロタ(実装の話) - LESS IS MORE)では変換部分のコードのみを貼りましたが、今回はすべてのコードを公開します。なので、記事内で示す声質変換の結果を、この記事を読んでいる方が再現することも可能です。対象読者は、特に初学者の方で、声質変換を始めたいけれど論文からコードに落とすにはハードルが高いし、コードを動かしながら仕組みを理解していきたい、という方を想定しています。役に立てば幸いです。 コード https://github.com/r9y9/VoiceConversion.jl Jul

    統計的声質変換クッソムズすぎワロタ(チュートリアル編) | LESS IS MORE
  • 統計的声質変換クッソムズすぎワロタ | LESS IS MORE

    2014/10/12 追記 少なくともGVのコードに致命的なバグがあったことがわかりました。よって、あまりあてにしないでください…(ごめんなさい こんにちは。 最近、統計的声質変換の勉強をしていました。で、メジャーなGMM(混合ガウスモデル)ベースの変換を色々やってみたので、ちょろっと書きます。実は(というほどでもない?)シンプルなGMMベースの方法だと音質クッソ悪くなってしまうんですが、色々試してやっとまともに聞ける音質になったので、試行錯誤の形跡を残しておくとともに、音声サンプルを貼っておきます。ガチ勢の方はゆるりと見守ってください 基的に、以下の論文を参考にしています T. Toda, A. W. Black, and K. Tokuda, “Voice conversion based on maximum likelihood estimation of spectral pa

    統計的声質変換クッソムズすぎワロタ | LESS IS MORE
  • 1