aidiaryのブックマーク - はてなブックマーク

pysptk: SPTKのpythonラッパーを作った (part 2) | LESS IS MORE

aidiary 2015/10/04

音声合成

リンク

Restricted Boltzmann Machines with MNIST | LESS IS MORE

ディープ某を使った研究を再現してみたくて、最近某ニューラルネットに手を出し始めた。で、手始めにRestricted Boltzmann Machinesを実装してみたので、 MNISTを使って学習した結果の重み（22*22=484個）を貼っとく（↑）得た知見をまとめとく Goのコード貼っとくってな感じで書いておく (本当はRBMについて自分なりの解釈を書こうと思ったのだけど、それはまた今度) 実験条件データベースはmnist。手書き数字認識で有名なアレ。学習の条件は、隠れ層のユニット数: 500 mini-batch size: 20 iterationの回数: 15 対数尤度の変化以下グラフに表示している生データ 0 -196.59046099622128 1 -70.31708616742365 2 -65.29499371647965 3 -62.3798326737802

aidiary 2015/06/23

Deep Learning

リンク

JuliaTokyo #3 Speech Signal Processing in Julia | LESS IS MORE

コード https://github.com/r9y9/JuliaTokyo3 三行まとめ発表の内容を三行でまとめると、音声ファイルの読み込み（or 書き込み）は[WAV.jl]((https://github.com/dancasimiro/WAV.jl)を使おう基本的なデジタル信号処理は JuliaDSP/DSP.jl をチェック（※JuliaDSPにはウェーブレットとかもあるよ）音声に特化した信号処理は、r9y9/WORLD.jl がオススメですという感じです。応用例として、歌声を分離する話（デモコード）、統計的声質変換（統計的声質変換クッソムズすぎワロタ（チュートリアル編） - LESS IS MORE）、画像をスペクトログラムに足しこむ話とか、さっと紹介しました。補足僕が使う/作ったパッケージを、あとで見返せるように最後のスライドにまとめておいたのですが、改めてこ

aidiary 2015/04/27

音声
Julia

リンク

MLSA digital filter のC++実装 | LESS IS MORE

aidiary 2015/02/23

音声合成

リンク

MLSA フィルタの実装 | LESS IS MORE

音声合成に使われるMLSA（Mel-Log Spectrum Approximatation）フィルタを実装したいんだが、なにぶんわからん。SPTKにコードはあるけれど、正直理解できない。デジタル信号処理を小学一年生から勉強しなおしたいレベルだと、前置きはさておき、MLSAフィルタの実装を見つけたのでメモ。ここ最近ちょくちょく調べているが、SPTK以外で初めて見つけた。 Realisation and Simulation of the Mel Log Spectrum Approximation Filter | Simple4All Internship Report Simple4Allという音声技術系のコミュニティの、学生さんのインターンの成果らしい。ちらっと調べてたら山岸先生も参加してる（た？）っぽい。上のreportで引用されているように、MLSA filterの実現方法に

aidiary 2015/02/23

音声合成

リンク

統計的声質変換クッソムズすぎワロタ（チュートリアル編） | LESS IS MORE

はじめにこんばんは。統計的声質変換（以降、簡単に声質変換と書きます）って面白いなーと思っているのですが、興味を持つ人が増えたらいいなと思い、今回は簡単なチュートリアルを書いてみます。間違っている箇所があれば、指摘してもらえると助かります。よろしくどうぞ。前回の記事（統計的声質変換クッソムズすぎワロタ（実装の話） - LESS IS MORE）では変換部分のコードのみを貼りましたが、今回はすべてのコードを公開します。なので、記事内で示す声質変換の結果を、この記事を読んでいる方が再現することも可能です。対象読者は、特に初学者の方で、声質変換を始めたいけれど論文からコードに落とすにはハードルが高いし、コードを動かしながら仕組みを理解していきたい、という方を想定しています。役に立てば幸いです。コード https://github.com/r9y9/VoiceConversion.jl Jul

aidiary 2015/01/05

音声合成

リンク

統計的声質変換クッソムズすぎワロタ | LESS IS MORE

2014/10/12 追記少なくともGVのコードに致命的なバグがあったことがわかりました。よって、あまりあてにしないでください…（ごめんなさいこんにちは。最近、統計的声質変換の勉強をしていました。で、メジャーなGMM（混合ガウスモデル）ベースの変換を色々やってみたので、ちょろっと書きます。実は（というほどでもない?）シンプルなGMMベースの方法だと音質クッソ悪くなってしまうんですが、色々試してやっとまともに聞ける音質になったので、試行錯誤の形跡を残しておくとともに、音声サンプルを貼っておきます。ガチ勢の方はゆるりと見守ってください基本的に、以下の論文を参考にしています T. Toda, A. W. Black, and K. Tokuda, “Voice conversion based on maximum likelihood estimation of spectral pa

aidiary 2015/01/05

音声合成

リンク

はてなブックマーク

タグ

ブックマーク / r9y9.github.io (7)

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス