LESS IS MORE[B!]新着記事・評価 - はてなブックマーク

Pythonで学ぶ音声合成 (Text-to-speech with Python) — ttslearn 0.2.2 documentation
3 users
r9y9.github.io

このサイトは何？¶ これは「Pythonで学ぶ音声合成」のドキュメントサイトです。内容は以下の通りです。学習済みモデルを利用した音声合成のデモ書籍に付属のソースコードのうち、著者 (山本) が実行した結果を保存した Jupyter ノートブック (第4章から第10章まで) 音声合成のためのコアライブラリ ttslearn のドキュメント書籍と併せて、学習の参考にしていただければ幸いです。
- テクノロジー
- 2022/04/12 01:12

NNSVS: Pytorchベースの研究用歌声合成ライブラリ | LESS IS MORE
21 users
r9y9.github.io

Summary コード: https://github.com/r9y9/nnsvs Discussion: https://github.com/r9y9/nnsvs/issues/1 Demo on Google colab 春が来た　春が来た　どこに来た。　山に来た　里に来た、野にも来た。花がさく　花がさく　どこにさく。山にさく　里にさく、野にもさく。 NNSVS はなに？ Neural network-based singing voice synthesis library for research 研究用途を目的とした、歌声合成エンジンを作るためのオープンソースのライブラリを作ることを目指したプロジェクトです。このプロジェクトについて、考えていることをまとめておこうと思います。なぜやるか？ NEUTRINO レベルの品質の歌声合成エンジンが作れるのかやってみたかったオープン
- テクノロジー
- 2020/05/11 01:14
- 機械学習
- PyTorch
- OSS
WN-based TTSやりました / Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [arXiv:1712.05884] | LESS IS MORE
6 users
r9y9.github.io

WN-based TTSやりました / Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [arXiv:1712.05884] Summary Thank you for coming to see my blog post about WaveNet text-to-speech. 論文リンク: https://arxiv.org/abs/1712.05884 オンラインデモ: Tacotron2: WaveNet-based text-to-speech demo コード r9y9/wavenet_vocoder, Rayhane-mamah/Tacotron-2 音声サンプル: https://r9y9.github.io/wavenet_vocoder/ 三行まとめ自作Wave
- テクノロジー
- 2018/05/20 23:27
- あとで読む
An open source implementation of Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning
3 users
r9y9.github.io

An open source implementation of Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning Github: https://github.com/r9y9/deepvoice3_pytorch This page provides audio samples for the open source implementation of Deep Voice 3. Samples from single speaker and multi-speaker models follow. Single speaker Samples from a model trained for 210k steps (~12 hours)1 on the LJSpeech dataset.
- テクノロジー
- 2018/04/26 20:46
WaveNet vocoder をやってみましたので、その記録です / WaveNet: A Generative Model for Raw Audio [arXiv:1609.03499] | LESS IS MORE
7 users
r9y9.github.io

WaveNet vocoder をやってみましたので、その記録です / WaveNet: A Generative Model for Raw Audio [arXiv:1609.03499] Summary コード: https://github.com/r9y9/wavenet_vocoder 音声サンプル: https://r9y9.github.io/wavenet_vocoder/ 三行まとめ Local / global conditioning を最低要件と考えて、WaveNet を実装しました DeepVoice3 / Tacotron2 の一部として使えることを目標に作りました PixelCNN++ の旨味を少し拝借し、16-bit linear PCMのscalarを入力として、（まぁまぁ）良い22.5kHzの音声を生成させるところまでできました Tacotron2 は
- テクノロジー
- 2018/03/29 01:58
- 機械学習
Interactive C++: Jupyter上で対話的にC++を使う方法の紹介 [Jupyter Advent Calendar 2017] | LESS IS MORE
5 users
r9y9.github.io

共通事項すべて、clang/llvmをC++インタプリタのベースにしています。Cxx.jl以外は、C++インタプリタであるclingをベースに、さらにその上にjupyterカーネルを実装しています。 1. cling clingは、いわずとしれた（？）C++インタプリタ実装です。後述するROOTという data analysis framework の一部として、CERNによって開発されています。(20年くらい前の) 古くからあったCINTというC++インタプリタ実装が、clangを使って書き直された、という歴史があります。clingプロジェクトの一環としてJupyterカーネルが開発されています。良いところ clingの起動が速いのでストレスが少ない 5 イマイチなところ IPythonだと使える %time のようなマジックはない cling本体で良いのでは？感が否めない。clin
- 学び
- 2017/12/22 20:18
- jupyter
ニューラルネットの学習過程の可視化を題材に、Jupyter + Bokeh で動的な描画を行う方法の紹介 [Jupyter Advent Calendar 2017] | LESS IS MORE
33 users
r9y9.github.io

ニューラルネットの学習過程の可視化を題材に、Jupyter + Bokeh で動的な描画を行う方法の紹介 [Jupyter Advent Calendar 2017] 前置き Jupyter Advent Calendar 2017 14日目の記事です。この記事は、Jupyter notebookで作成したものをnbconvertでmarkdownに変換し、手で少し修正して作りました。読み物としてはこの記事を、実行するにはノートブックの方を参照していただくのが良いかと思います。ノートブック (gist) nbviewer 概要適当なニューラルネットの学習過程の可視化（ロス、正解率の遷移等）を題材にして、Bokehを使って動的にグラフを更新していくことによる可視化の実用例を紹介します。このノートブックの冒頭に、最後まで実行すると得られるグラフ一覧をまとめました。どうやってグラフを作るのか
- テクノロジー
- 2017/12/14 16:19
- Python
- 機械学習
- bokeh
- data
- あとで読む
日本語 End-to-end 音声合成に使えるコーパス JSUT の前処理 [arXiv:1711.00354] - LESS IS MORE
4 users
r9y9.github.io

Summary コーパス配布先リンク: JSUT (Japanese speech corpus of Saruwatari Lab, University of Tokyo) - Shinnosuke Takamichi (高道慎之介) 論文リンク: arXiv:1711.00354 三行まとめ日本語End-to-end音声合成に使えるコーパスは神、ありがとうございますクリーンな音声であるとはいえ、冒頭/末尾の無音区間は削除されていない、またボタンポチッみたいな音も稀に入っているので注意僕が行った無音区間除去の方法（Juliusで音素アライメントを取って云々）を記録しておくので、必要になった方は参考にどうぞ。ラベルファイルだけほしい人は連絡ください JSUT とはツイート引用：フリーの日本語音声コーパス（単一話者による10時間データ）を公開しました．音声研究等にお役立てくださ
- テクノロジー
- 2017/11/14 06:35
Tacotron: Towards End-to-End Speech Synthesis / arXiv:1703.10135 [cs.CL] | LESS IS MORE
12 users
r9y9.github.io

Tacotron: Towards End-to-End Speech Synthesis / arXiv:1703.10135 [cs.CL] Googleが2017年4月に発表したEnd-to-Endの音声合成モデル Tacotron: Towards End-to-End Speech Synthesis / arXiv:1703.10135 [cs.CL] に興味があったので、自分でも同様のモデルを実装して実験してみました。結果わかったことなどをまとめておこうと思います。 GoogleによるTacotronの音声サンプルは、 https://google.github.io/tacotron/ から聴けます。僕の実装による音声サンプルはこの記事の真ん中くらいから、あるいは Test Tacotron.ipynb | nbviewer1 から聴くことができます。とても長い記事になっ
- テクノロジー
- 2017/10/15 17:25
- research
- google
GAN 日本語音声合成 [arXiv:1709.08041] | LESS IS MORE
5 users
r9y9.github.io

10/11 追記: IEEE TASLPのペーパー (Open access) が公開されたようなので、リンクを貼っておきます: https://ieeexplore.ieee.org/document/8063435/ arXiv論文リンク: arXiv:1709.08041 前回の記事の続きです。これでこのシリーズは終わりの予定です。前回は英語音声合成でしたが、以前書いた DNN日本語音声合成の記事で使ったデータと同じものを使い、日本語音声合成をやってみましたので、結果を残しておきます。実験実験条件 HTSのNIT-ATR503のデモデータ (ライセンス) から、wavデータ503発話を用います。442を学習用、56を評価用、残り5をテスト用にします（※英語音声とtrain/evalの比率は同じです）。継続長モデルは、state-levelではなくphone-levelです。
- テクノロジー
- 2017/10/10 20:43
- arXiv
【音声合成編】Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks [arXiv:1709.08041] | LESS IS MORE
3 users
r9y9.github.io

【音声合成編】Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks [arXiv:1709.08041] 10/11 追記: IEEE TASLPのペーパー (Open access) が公開されたようなので、リンクを貼っておきます: https://ieeexplore.ieee.org/document/8063435/ arXiv論文リンク: arXiv:1709.08041 前回の記事の続きです。音響モデルの学習にGANを使うというアイデアは、声質変換だけでなく音声合成にも応用できます。CMU ARCTIC を使った英語音声合成の実験を行って、ある程度良い結果がでたので、まとめようと思います。音声サンプルだけ聴きたい方は真ん中の方まで読み飛ばしてください。コード
- テクノロジー
- 2017/10/09 20:47
【声質変換編】Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks [arXiv:1709.08041] | LESS IS MORE
7 users
r9y9.github.io

【声質変換編】Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks [arXiv:1709.08041] 10/11 追記: IEEE TASLPのペーパー (Open access) が公開されたようなので、リンクを貼っておきます: https://ieeexplore.ieee.org/document/8063435/ arXiv論文リンク: arXiv:1709.08041 2017年9月末に、表題の論文が公開されたのと、nnmnkwii という designed for easy and fast prototyping を目指すライブラリを作ったのもあるので、実装してみました。僕が実験した限りでは、声質変換 (Voice conversion; VC) では
- テクノロジー
- 2017/10/06 00:22
DNN音声合成のためのライブラリの紹介とDNN日本語音声合成の実装例 | LESS IS MORE
9 users
r9y9.github.io

nnmnkwii というDNN音声合成のためのライブラリを公開しましたので、その紹介をします。 https://t.co/p8MnOxkVoH Library to build speech synthesis systems designed for easy and fast prototyping. Open sourced:) — 山本りゅういち (@r9y9) August 14, 2017 ドキュメントの最新版は https://r9y9.github.io/nnmnkwii/latest/ です。以下に、いくつかリンクを貼っておきます。なぜ作ったのか、その背景の説明と設計 (日本語) クイックガイド DNN英語音声合成のチュートリアルよろしければご覧ください1。ドキュメントは、だいたい英語でお硬い雰囲気で書いたので、この記事では、日本語でカジュアルに背景などを説明しよう
- テクノロジー
- 2017/08/20 03:56
言語処理100本ノック 2015 をすべてやりました | LESS IS MORE
11 users
r9y9.github.io

本家サイト: http://www.cl.ecei.tohoku.ac.jp/nlp100/ 僕が書いたコード: https://github.com/r9y9/nlp100 最近、自然言語処理(NLP)を勉強しようという熱が出ました。ある自然言語処理の問題を解きたかったのですが、無知のためにか直感がまったく働かず、これはまずいと感じたので、入門的なのに手を出そうと思った次第です。結果、毎日やりつづけて、12日かかりました（上図は、横軸が日付、縦軸が達成した問題数です。図はseabornで適当に作りました）。速度重視1で問題を解きましたが、思ったよりうまく進まず大変だった、というのが正直な感想です。以下、雑多な感想です。 mecab, cabocha, CoreNLPの解析結果をパースするコードを書くのは、ただただ面倒に感じた NER実装しろ、みたいな問題があったらより楽しかったか
- テクノロジー
- 2017/08/17 12:39
DNN統計的音声合成ツールキット Merlin の中身を理解をする | LESS IS MORE
7 users
r9y9.github.io

この記事では、音声合成ツールキットであるMerlinが、具体的に何をしているのか（特徴量の正規化、無音区間の削除、ポストフィルタなど、コードを読まないとわからないこと）、その中身を僕が理解した範囲でまとめます。なお、HMM音声合成について簡単に理解していること（HMMとは、状態とは、フルコンテキストラベルとは、くらい）を前提とします。はじめに Merlinの概要については以下をご覧ください。 Wu, Zhizheng, Oliver Watts, and Simon King. “Merlin: An open source neural network speech synthesis system.” Proc. SSW, Sunnyvale, USA (2016). “A Demonstration of the Merlin Open Source Neural Network
- テクノロジー
- 2017/08/16 09:37
- あとで読む
対話環境でPoint Cloud Library (PCL) を使いたい | LESS IS MORE
9 users
r9y9.github.io

新年はじめての記事ということで、少し遅いですが、あけましておめでとうございます。PCLを対話環境で使いたかったので、お正月の間にPCLのラッパーを作りました1。なぜ作ったのか、どうやって作ったのか、少し整理して書いてみようと思います。 Point Cloud Library (PCL) とは http://www.pointclouds.org/ 問題 PCL はboost、Eigenに依存している、かつtemplateを多く使用しているため、PCLを使用したプロジェクトのコンパイル時間は非常に長くなるという問題があります。twitterで [PCL コンパイル] として検索すると、例えば以下の様なツイートが見つかりますが、完全に同意です。 PCLリンクしてるコードのコンパイルに一分半くらいかかる。つらい — がらえもん(プログラム書く (@garaemon_coder) August 1
- テクノロジー
- 2016/01/19 00:30
- PCL
Cxx.jl を使ってみた感想 + OpenCV.jl, Libfreenect2.jl の紹介 | LESS IS MORE
7 users
r9y9.github.io

はじめに Julia Advent Calendar 2015 22日目の記事です。 Julia の C++ FFI (Foreign Function Interface) である Cxx.jl をしばらく使ってみたので、その感想を書きます。加えて、Cxx.jl を使って作った成果物の話も簡単に書こうと思います（冒頭に貼った画像は、OpenCV.jl でテキトーにカメラから画像をキャプチャしてthresholdingしたやつです）。 Cxx.jl の動作原理については、僕の理解が不十分なため簡単にしか紹介できませんが、そもそも使ったことがある人が稀だと思われるので、感想程度でも役に立てば幸いです。 Cxx.jl とは https://github.com/Keno/Cxx.jl 簡単に説明すると、Cxx.jl とは、Julia から C++ を使用する（e.g. 関数呼び出し、メソッド呼
- テクノロジー
- 2015/12/23 07:19
GOSSP - Go言語で音声信号処理 | LESS IS MORE
12 users
r9y9.github.io

C++からGoへみなさん、C++で信号処理のアルゴリズムを書くのはつらいと思ったことはありませんか？C++で書くと速いのはいいけれど、いかんせん書くのが大変、コンパイルエラーは読みづらい、はたまたライブラリをビルドしようとしたら依存関係が上手く解決できず……そんな覚えはないでしょうか？謎のコンパイルエラーに悩みたくない、ガーベジコレクションほしい、Pythonのようにさくっと書きたい、型推論もほしい、でも動作は速い方がいい、そう思ったことはないでしょうか。そこでGoです。もちろん、そういった思いに完全に答えてくれるわけではありませんが、厳しいパフォーマンスを要求される場合でなければ、Goの方が良い場合も多いと僕は思っています。とはいえ、まだ比較的新しい言語のため、ライブラリは少なく信号処理を始めるのも大変です。というわけで、僕がC++をやめてGoに移行したことを思い出し、Goでの信号
- テクノロジー
- 2015/01/22 23:49
Naive Bayesの復習（導出編） | LESS IS MORE
5 users
r9y9.github.io

すぐ忘れるのでメモ。ナイーブベイズの学習アルゴリズムの導出とか、そもそもナイーブベイズが定番過ぎて意外とやったことなかった気もするので、復習がてらやってみた。ちょっと修正 2013/07/30 ナイーブベイズについて整理学習アルゴリズムの導出 Naive bayes （ナイーブベイズ）スパムフィルタで使われたことで有名な確率モデルで、シンプルだけどそこそこ実用的なのが良い所。Naive bayesという名前は、特徴ベクトル間に条件付き独立性を仮定してることにある（実際は相関あることが多いけど、まぁ簡単のためって感じ）。具体的に例を挙げて言うと、例えば文書分類タスクの場合、各単語は独立に生起するという仮定を置くことに相当する。まずはモデルを書き下す。入力データを$\mathbf{x}$（D次元）、ラベルを$y$（離散値）とすると、ナイーブベイズでは以下のように同時確率をモデル化する。
- 学び
- 2014/12/21 20:14
Goでニューラルネットいくつか書いたけどやっぱPythonが楽でいいですね | LESS IS MORE
17 users
r9y9.github.io

いまいち成果出ないので気分転換にブログをだらだら書いてみるテストです。まえがき半年くらい前に、某深層学習に興味を持ってやってみようかなーと思っていた時期があって、その時にGoでいくつかニューラルネットを書きました（参考：Restricted Boltzmann Machines with MNIST - LESS IS MORE、githubに上げたコード）。なぜGoだったかというと、僕がGoに興味を持ち始めていたからというのが大きいです。Goを知る前は、たくさん計算するようなコードを書くときはC++だったけれど、C++は色々つらいものがあるし、GoはC++には速度面で劣るもののそこそこ速く、かつスクリプト的な書きやすさもあります。C++のデバッグやメンテに費やす膨大な時間に比べれば、計算時間が1.5~2倍に増えるくらい気にしないというスタンスで、僕はC++のかわりGoを使おうとしてい
- テクノロジー
- 2014/12/11 13:55
- python
- golang
- go
- math
- 機械学習
ccallにおけるポインタ周りのハマりどころとその解決法 | LESS IS MORE
4 users
r9y9.github.io

Julia Advent Calendar 2014 9日目の記事です。はじめに CやFortranの関数をJuliaから呼ぶために使用するccallにおいて、ポインタに関係するハマりどころとその解決法を紹介します。純粋なJuliaを使っている場合にはポインタを意識することはめったにないと思うので、ccall を使う人（計算が重いボトルネック部分をCで書いてJuliaから呼びたい人、Cのライブラリのラッパーを書きたい/書いてる人）を主な読者と想定して記事を書きました（限定的でごめんなさい）。困った時は、公式ドキュメントの Calling C and Fortran Code を参考にしましょう。注意: 最新版の公式ドキュメントをいくつか引用していますが、ドキュメントは日々更新されていますので、この記事を読んで頂いた時点とは異なる可能性があることにご注意ください。こんなとき ccal
- テクノロジー
- 2014/12/09 13:33
- julia
- プログラミング
統計的声質変換クッソムズすぎワロタ（チュートリアル編） | LESS IS MORE
26 users
r9y9.github.io

はじめにこんばんは。統計的声質変換（以降、簡単に声質変換と書きます）って面白いなーと思っているのですが、興味を持つ人が増えたらいいなと思い、今回は簡単なチュートリアルを書いてみます。間違っている箇所があれば、指摘してもらえると助かります。よろしくどうぞ。前回の記事（統計的声質変換クッソムズすぎワロタ（実装の話） - LESS IS MORE）では変換部分のコードのみを貼りましたが、今回はすべてのコードを公開します。なので、記事内で示す声質変換の結果を、この記事を読んでいる方が再現することも可能です。対象読者は、特に初学者の方で、声質変換を始めたいけれど論文からコードに落とすにはハードルが高いし、コードを動かしながら仕組みを理解していきたい、という方を想定しています。役に立てば幸いです。コード https://github.com/r9y9/VoiceConversion.jl Jul
- テクノロジー
- 2014/11/11 10:57
Gamma Process Non-negative Matrix Factorization (GaP-NMF) in Julia | LESS IS MORE
4 users
r9y9.github.io

Gamma Process Non-negative Matrix Factorization (GaP-NMF) in Julia 最近 Julia で遊んでいて、その過程で非負値行列因子分解（NMF）のノンパラ版の一つであるGamma Process Non-negative Matrix Factorization (GaP-NMF) を書いてみました。（まぁmatlabコードの写経なんですが） https://github.com/r9y9/BNMF.jl 元論文: Bayesian Nonparametric Matrix Factorization for Recorded Music by Matthew D. Hoffman et al. in ICML 2010. デモ http://nbviewer.ipython.org/github/r9y9/BNMF.jl/blo
- テクノロジー
- 2014/09/27 22:22
- julia
cgo の基本的な使い方とポインタ周りのTips (Go v1.2) | LESS IS MORE
12 users
r9y9.github.io

C/C++ライブラリのGoラッパーを書くためには、cgoというパッケージを使うのだけど、特にCのポインタ周りにハマりどころが多かったので、少しまとめとく cgoの基礎については、以下の二つを読むことを推奨 https://golang.org/cmd/cgo/ https://code.google.com/p/go-wiki/wiki/cgo この記事では、cgo基本的な使い方と、いくつかポインタ絡みのTipsをまとめる。Tipsのみ必要な場合は、最初の方は飛ばして下さい cgo Cgo enables the creation of Go packages that call C code. https://golang.org/cmd/cgo/ cgoとは、GoからCの関数/型にアクセスするために用いるパッケージのこと。cgoを使えば、GoからCのコードが呼べる。つまり、Cで書かれた
- テクノロジー
- 2014/07/27 21:02
LESS IS MORE
5 users
r9y9.github.io

A software engineer/researcher at LY Corporation, based in Nagoya, Japan. I am also a Ph.D. student at at Nagoya University, working with my advisor Prof. Tomoki Toda at the Toda Laboratory. I enjoy both research and software development. My research interests include statistical speech synthesis, voice conversion, singing voice synthesis, and machine learning. Before joining LY Corporation (forme
- テクノロジー
- 2014/07/26 01:04
Pylearn2, theanoをEC2 g2.x2large で動かす方法 | LESS IS MORE
10 users
r9y9.github.io

モチベーション手元のへぼマシンでニューラルネットの学習を回わす半日たっても終わらない最近だとGPU使って計算を高速化するのが流行りだが、手元にGPUはない Deep Learning in Python with Pylearn2 and Amazon EC2 手元にGPUがない…？大丈夫！Amazon EC2を使えば良さそう！！！というわけで、めんどくさいと言わずにec2にお手軽計算環境を整えます。ec2でGPUが乗ったものだと、g2.2xlargeがよさそうですね。ちなみに↑の図、pylearn2のtutorialのRestricted Bolzmann MachinesをMNISTで学習した結果なんですが、手元のマシンだとだいたい6時間くらい？（忘れた）だったのがg2.2xlargeだと30分もかかってない（ごめんなさい時間図るの忘れた）。$0.65/hourと安いんだし（
- テクノロジー
- 2014/07/25 01:27
- python
- Amazon
統計的声質変換クッソムズすぎワロタ | LESS IS MORE
7 users
r9y9.github.io

2014/10/12 追記少なくともGVのコードに致命的なバグがあったことがわかりました。よって、あまりあてにしないでください…（ごめんなさいこんにちは。最近、統計的声質変換の勉強をしていました。で、メジャーなGMM（混合ガウスモデル）ベースの変換を色々やってみたので、ちょろっと書きます。実は（というほどでもない?）シンプルなGMMベースの方法だと音質クッソ悪くなってしまうんですが、色々試してやっとまともに聞ける音質になったので、試行錯誤の形跡を残しておくとともに、音声サンプルを貼っておきます。ガチ勢の方はゆるりと見守ってください基本的に、以下の論文を参考にしています T. Toda, A. W. Black, and K. Tokuda, “Voice conversion based on maximum likelihood estimation of spectral pa
- テクノロジー
- 2014/07/08 23:43
- 音声合成
- 論文
NMFアルゴリズムの導出（ユークリッド距離版） | LESS IS MORE
7 users
r9y9.github.io

はじめにシングルトラックにミックスダウンされた音楽から、その構成する要素（例えば、楽器とか）を分離したいと思うことがある。音源分離と言えば、最近はNon-negative Matrix Factorization (非負値行列因子分解; NMF) が有名。実装は非常に簡単だけど、実際にやってみるとどの程度の音源分離性能が出るのか気になったので、やってみる。と思ったけど、まずNMFについて整理してたら長くなったので、実装は今度にして、まずアルゴリズムを導出してみる。 2014/10/19 追記実装しました https://github.com/r9y9/julia-nmf-ss-toy NMFの問題設定 NMFとは、与えられた行列を非負という制約の元で因子分解する方法のこと。音楽の場合、対象はスペクトログラムで、式で書くとわかりやすい。スペクトログラムを $\mathbf{Y}
- テクノロジー
- 2014/06/13 10:40
マルコフ確率場 (MRF) と条件付き確率場 (CRF) の違い | LESS IS MORE
10 users
r9y9.github.io

一番の違いは、生成モデルか識別モデルか、ということ。それぞれ、 Markov Random Fields (MRF) は生成モデル Conditional Random Fields (CRF) は識別モデルです。 What is exactly the difference between MRF and CRF ここを見ると割とすっきりする。ただ、少しスムーズに納得できないことがありまして…それは、MRFもCRFもグラフィカルモデルで書くと無向グラフとなること。識別モデルは無向グラフで生成モデルは有向グラフなんじゃ…？と思ってしまう人もいるんじゃないかと思う（いなかったらごめんなさい）。グラフィカルモデルとしての表現一般に、生成モデルは有向グラフの形で記述され、識別モデルは無向グラフとして記述される。例えば、隠れマルコフモデル (HMM) は有向グラフで、条件付き確率場 (CR
- テクノロジー
- 2014/06/12 14:01

はてなブックマーク

はてなブックマーク

『LESS IS MORE』

Pythonで学ぶ音声合成 (Text-to-speech with Python) — ttslearn 0.2.2 documentation

NNSVS: Pytorchベースの研究用歌声合成ライブラリ | LESS IS MORE

WN-based TTSやりました / Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions [arXiv:1712.05884] | LESS IS MORE

An open source implementation of Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning

WaveNet vocoder をやってみましたので、その記録です / WaveNet: A Generative Model for Raw Audio [arXiv:1609.03499] | LESS IS MORE

Interactive C++: Jupyter上で対話的にC++を使う方法の紹介 [Jupyter Advent Calendar 2017] | LESS IS MORE

ニューラルネットの学習過程の可視化を題材に、Jupyter + Bokeh で動的な描画を行う方法の紹介 [Jupyter Advent Calendar 2017] | LESS IS MORE

日本語 End-to-end 音声合成に使えるコーパス JSUT の前処理 [arXiv:1711.00354] - LESS IS MORE

Tacotron: Towards End-to-End Speech Synthesis / arXiv:1703.10135 [cs.CL] | LESS IS MORE

GAN 日本語音声合成 [arXiv:1709.08041] | LESS IS MORE

【音声合成編】Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks [arXiv:1709.08041] | LESS IS MORE

【声質変換編】Statistical Parametric Speech Synthesis Incorporating Generative Adversarial Networks [arXiv:1709.08041] | LESS IS MORE

DNN音声合成のためのライブラリの紹介とDNN日本語音声合成の実装例 | LESS IS MORE

言語処理100本ノック 2015 をすべてやりました | LESS IS MORE

DNN統計的音声合成ツールキット Merlin の中身を理解をする | LESS IS MORE

対話環境でPoint Cloud Library (PCL) を使いたい | LESS IS MORE

Cxx.jl を使ってみた感想 + OpenCV.jl, Libfreenect2.jl の紹介 | LESS IS MORE

GOSSP - Go言語で音声信号処理 | LESS IS MORE

Naive Bayesの復習（導出編） | LESS IS MORE

Goでニューラルネットいくつか書いたけどやっぱPythonが楽でいいですね | LESS IS MORE

ccallにおけるポインタ周りのハマりどころとその解決法 | LESS IS MORE

統計的声質変換クッソムズすぎワロタ（チュートリアル編） | LESS IS MORE

Gamma Process Non-negative Matrix Factorization (GaP-NMF) in Julia | LESS IS MORE

cgo の基本的な使い方とポインタ周りのTips (Go v1.2) | LESS IS MORE

LESS IS MORE

Pylearn2, theanoをEC2 g2.x2large で動かす方法 | LESS IS MORE

統計的声質変換クッソムズすぎワロタ | LESS IS MORE

NMFアルゴリズムの導出（ユークリッド距離版） | LESS IS MORE

マルコフ確率場 (MRF) と条件付き確率場 (CRF) の違い | LESS IS MORE

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

『LESS IS MORE』

このページはまだブックマークされていません

キーボードショートカット一覧

公式Twitter

はてなのサービス

このページはまだ
ブックマークされていません