jp-mykのブックマーク / 2020年11月7日

jp-myk id:jp-myk

2020年11月7日のブックマーク (6件)

DTW（動的時間伸縮法）で時系列データ間の距離を求める
jp-myk 2020/11/07
リンク
Bidirectional-LSTM based RNNs for text-to-speech synthesis with OpenJTalk (ja) — nnmnkwii 0.1.0 documentation
» Bidirectional-LSTM based RNNs for text-to-speech synthesis with OpenJTalk (ja) View page source Bidirectional-LSTM based RNNs for text-to-speech synthesis with OpenJTalk (ja)¶ Source code: https://github.com/r9y9/nnmnkwii_gallery LSTMRNN 日本語音声合成のデモです。最下部に、OpenJTalkの言語処理フロントエンドを利用した、任意文章に対するTTSのデモを用意しています。「テキストから音声を合成したいが、どうやってフルコンテキストラベルを用意すればいいのか？」といった質問がいくらか寄せられたので、その答えの一例として、デモを用意した次第です。OpenJ
jp-myk 2020/11/07
リンク
【論文紹介】MelGAN & Multi-band MelGAN - MLエンジニアのモノづくり日記
自分がよく使うモデルは理解を深めておこうの精神。 MelGAN の論文はこちら [1] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis Multi-band MelGAN (以下 MB-MelGAN)の論文はこちら [2] Multi-band MelGAN: Faster Waveform Generation for High-Quality Text-to-Speech 公開されている実装は例えば以下にあります。 Official melgan-neurips Unofficial melgan ParallelWaveGAN (前の記事でも下の ParallelWaveGAN リポジトリの MultiBand-MelGAN の実装を利用させていただいてます。本当にありがとうざいます
jp-myk 2020/11/07
リンク
ONNX.jsを使ってWebブラウザでディープラーニング - Qiita
はじめにディープラーニングの世界には様々なフレームワークがあり、Caffeで学習されたモデルはCaffeでしか推論できませんでしたが、CaffeモデルをKerasに変換したりとそれぞれ独自に変換するツールもでてきました。そうした中で、異なるフレームワーク間で同じ学習モデルをより便利に使うために、ニューラルネットワークのフォーマットの標準化が進んでいます。この記事では、ニューラルネットワークの標準フォーマットの1つであるONNXと、ONNXモデルをブラウザで動作させることができるONNX.jsについて紹介したいと思います。 ONNX (Open Neural Network Exchange) は、FacebookとMicrosoftが提唱しているニューラルネットワークのモデル表現の標準フォーマットです。近年、AmazonやPFNもこのプロジェクトに参画したようです。 ONNX以外にも、
jp-myk 2020/11/07
リンク
PyTorchでDCGANを作ってみよう
そこで、今回は「CNNなんて怖くない！　その基本を見てみよう」や「PyTorchで畳み込みオートエンコーダーを作ってみよう」などで取り上げた畳み込みニューラルネットワークを利用して、GANを構築してみることにします。実際の構成は、次のようになります。以下ではConv2dクラスとConvTranspose2dクラスのみを含めてありますが、BatchNorm2dクラスおよびtorch.nnモジュールが提供する活性化関数クラス（torch.nn.Sigmoidクラス、torch.nn.Tanhクラス）も使用します。訓練データと偽物のデータの識別と偽物データの生成の中心的な処理はこれら2つのクラスが請け負うということです。識別器（ディスクリミネーター）では、CNNで使用するConv2dクラスにより訓練データおよび生成器（ジェネレーター）から入力されたデータを最終的に0～1の値へと変換していきま
jp-myk 2020/11/07
リンク
End-to-End Automatic Speech Recognition Integrated With CTC-Based Voice Activity Detection
- 1 user
- arxiv.org
- 学び
jp-myk 2020/11/07
リンク
- 2020年11月9日
- 2020年11月7日
- 2020年11月1日