タグ

ブックマーク / tam5917.hatenablog.com (14)

  • von Mises分布DNNに基づく位相復元手法をPyTorchで実装した - 備忘録

    はじめに 実装 実験 特徴抽出およびミニバッチ構築について 音声の分析条件 実験結果 おわりに 追記 はじめに 音声の位相復元という研究トピックが存在している.分野に不慣れな人はまず,矢田部先生の解説記事を読むことをおすすめする. www.jstage.jst.go.jp 音声の位相復元をDNNで行う流れがあり,日の研究者も大いに貢献している. speakerdeck.com 表題のvon Mises 分布DNNに基づく位相復元手法は,慶應義塾大学の高道先生が東京大学に在籍していたころの仕事である. ipsj.ixsq.nii.ac.jpvon Mises分布DNNに基づく振幅スペクトログラムからの位相復元 今回はこの手法をPyTorchで実装し,位相復元の実験をしてみたということである. 実装 以下のリポジトリに置いた.Enjoy! github.com 基的な構造は全結合層からなる

    von Mises分布DNNに基づく位相復元手法をPyTorchで実装した - 備忘録
    xiangze
    xiangze 2024/05/17
  • 最適輸送理論の解説論文とか書籍へのリンクのまとめ - 備忘録

    はじめに メモとして。WGANの勉強にもなるかなと。 2023年 11月 追記 輸送計画,輸送写像,輸送経路―有限集合とℝ2の最適輸送理論の違い― https://www.jstage.jst.go.jp/article/bjsiam/32/2/32_69/_article/-char/ja/ 2023年3月時点の最新情報 最適輸送イベントに寄せて学ぶ - Stimulator 理論 入門 最適輸送理論梗概 [1009.3856] Introduction to Optimal Transport Theory A user’s guide to optimal transport Introduction to Monge-Kantorovich Problem 地球はやっぱり丸かった?!- 物質を最適な方法で運ぶ理論を用いて物の形を理解する NIPS 2017 Tutorial A

    最適輸送理論の解説論文とか書籍へのリンクのまとめ - 備忘録
  • "Differential Entropic Clustering of Multivariate Gaussians"をNumbaを使って高速化してみた話 - 備忘録

    はじめに 前回記事で実装した Differential Entropic Clustering をもう少し高速化したいなぁ,という話. tam5917.hatenablog.com 実装 やり方は簡単で,numbaをインストールして,@jit デコレータをBurg matrix divergence およびMahalanobis距離を計算する関数につけるだけ. @jit(nopython=True) def comp_burg_div(mat_x, mat_y): """Compute Burg matrix divergence.""" dim = mat_x.shape[0] mat_y_inv = LA.inv(mat_y) mat = mat_x @ mat_y_inv burg_div = np.trace(mat) - np.log(LA.det(mat)) - dim ret

    "Differential Entropic Clustering of Multivariate Gaussians"をNumbaを使って高速化してみた話 - 備忘録
    xiangze
    xiangze 2023/08/26
  • 日本語x-vectorから感情成分を分離するニューラルネットワークを構築してみた −感情分類に敵対的な損失関数の導入− - 備忘録

    はじめに 記事は前回記事の続編に相当する. 前回記事では声優統計コーパスの3話者・3感情の音声データに対してx-vector抽出器を適用し,UMAPで可視化を試みた. この可視化の実験を通じて,感情成分が分離できていない傾向が見られた.すなわち,来は話者3クラスにも関わらず,疑似的な9クラス(= 3話者 × 3感情) が存在するように見える,というものである(x-vector抽出器の学習データを考えてみれば,それはそうなのだが).せっかくx-vectorが手元にあるのだから,感情成分を分離/除去するフィルタの役割を果たす手法を実装してみたいと考えた.記事はその実装の詳細と簡単な検証実験に関する報告である. 感情成分を分離するニューラルネットワーク 先行研究と論文 今回の実装にあたり下記の論文を参考にした.論文では,音響特徴量(ベクトル系列)に含まれる話者成分とテキスト情報を表す成分

    日本語x-vectorから感情成分を分離するニューラルネットワークを構築してみた −感情分類に敵対的な損失関数の導入− - 備忘録
    xiangze
    xiangze 2023/07/27
  • Generalized Mahalanobis depth in the reproducing kernel Hilbert spaceをPythonで実装した話 - 備忘録

    はじめに 2011年に以下の論文が出版されている. Yonggang Hu, Yong Wang, Yi Wu, Qiang Li & Chenping Hou, "Generalized Mahalanobis depth in the reproducing kernel Hilbert space," Statistical Papers volume 52, pages 511-522 (2011). link.springer.com この論文において,再生核ヒルベルト空間(Reproducing Kernel Hilbert Space; RKHS)上でMahalanobis depthを計算する方法が提案された. それを具体的にPythonで実装してみたので紹介するのが記事の主旨である. 統計的depthとは 統計的depthは多次元空間のmedianを考える際に出てくる統

    Generalized Mahalanobis depth in the reproducing kernel Hilbert spaceをPythonで実装した話 - 備忘録
    xiangze
    xiangze 2023/06/14
  • カーネルPCAに基づく外れ値検知にサブセットのサンプリング機能を実装して計算量削減を図った話 - 備忘録

    はじめに 先の記事 tam5917.hatenablog.com にてカーネルPCAに基づく外れ値検知を実装したが、計算量が多く使い物にならない。 そこで記事では、 tam5917.hatenablog.com の記事にある、データセットのサブサンプリングを組み込むことで計算量を減らしつつ、検知性能がどの程度キープされるかを簡単に確認してみた。 実装 実装は以下の通り。 ここをクリックしてコードを表示する gist.github.com 検証 サブセットのサイズは、元のデータセットの20%になるようにランダムサンプリングした。以下がそのノートブックである。 gist.github.com KPCA(SP)がサブセットのサンプリング版である。サンプル数の多いデータセットほど時間削減の幅は大きい(mnist、optdigits、pendigits、satellite、satimage-2)。

    カーネルPCAに基づく外れ値検知にサブセットのサンプリング機能を実装して計算量削減を図った話 - 備忘録
  • 異常音検知関連の情報まとめ - 備忘録

    異常音検知に関して、まとめてリストしておく。備忘録。 解説論文・スライド スライド 論文 ソフトウェア データセット 書籍 コンペティション 解説論文・スライド スライド 音響信号に対する異常音検知技術と応用 音響信号に対する異常音検知技術と応用 from Yuma Koizumi www.slideshare.net 統計的手法に基づく異常音検知の理論と応用 統計的手法に基づく異常音検知の理論と応用 from Yuma Koizumi www.slideshare.net 異常音検知に対する深層学習適用事例 異常音検知に対する深層学習適用事例 from NU_I_TODALAB www.slideshare.net 論文 深層学習を用いた異常検知技術(解説論文) Link 環境音分析の研究動向(解説論文) Link 環境音分析・異常音検知の研究動向(解説論文)Link DCASE 202

    異常音検知関連の情報まとめ - 備忘録
    xiangze
    xiangze 2022/11/22
  • 微分可能な複素正弦波オシレータを用いて日本語5母音を近似させてみた - 備忘録

    はじめに 実装 実験 実験条件 実験結果 おわりに はじめに SNSにて、しゃをみん氏が興味深い記事をツイートされていた。 昨日書きました。 「コンピューターは遂に「音の高低」を理解した」と言えるほどの大きな進歩です。 【注目論文】Sinusoidal Frequency Estimation by Gradient Descent https://t.co/SbbNlZkdAW #Qiita @syao_mingより— しゃをみん (@syao_ming) November 13, 2022 上記の記事で紹介されている論文は、いわゆる複素正弦波オシレータが微分可能な形で定式化されることを示していた。 この「微分可能」なオシレータでは、元の波形を複素正弦波の重ね合わせで近似的に表現する。 そして各サンプル点において計算される波形の近似誤差に基づき、勾配降下法を利用してその誤差が小さくなるよ

    微分可能な複素正弦波オシレータを用いて日本語5母音を近似させてみた - 備忘録
  • AIミュージックバトル!『弁財天』のスターターキットをPyTorchに移植してアドリブメロディの自動生成を試してみた - 備忘録

    はじめに スターターキットについて スターターキットが提供するモデルの概要 実装 必要なパッケージ 実装の概要 メロディ生成実験 実験条件 実験結果 実装の舞台裏やTIPS、TensorFlow版との違いなど おわりに はじめに 最近、下記のイベントが開催されることがアナウンスされた。 benzaiten.studio.site 『AIミュージックバトル!『弁財天』は「伴奏」から「アドリブメロディ」をAIで生成し「どれだけイケてるメロディか」を競うAI自動作曲コンテストです。』 とのことである。 コンテストではTensorFlowベースのスターターキット(Google Colabで実行可能)が提供されており、自動作曲初心者でも無理なく始められるようになっている。 筆者はPyTorchユーザなので、スターターキットのPyTorch版を作成しておきたいと思ったわけである。自動作曲自体に興味が

    AIミュージックバトル!『弁財天』のスターターキットをPyTorchに移植してアドリブメロディの自動生成を試してみた - 備忘録
  • メルケプストラムについてのまとめ - 備忘録

    はじめに メルケプストラムとは何か?一言で表せば、 人間の聴覚特性を考慮したケプストラム となるだろうか。記事ではメルケプストラムについて簡単にまとめる。 メルケプストラムの特徴 ケプストラムとメルケプストラムの違いは以下の図に示す通りである。 いずれもスペクトル包絡を少ない情報量で表現するパラメータ(音響特徴量)である。ケプストラムは周波数軸上、一様なスケールでスペクトルをサンプリングし、フーリエ変換することによって得られる*1。しかしながら、低周波数領域では感度が高く、高周波数領域では感度に乏しいという人間の聴覚特性が考慮されていない。メルケプストラムは、一様な周波数スケールから聴覚特性を反映したメルスケールへと周波数伸縮し、このメルスケール上でスペクトルをサンプリングして得られるケプストラムである。利点としては、通常のケプストラムよりも次数が少なく済むことなどが挙げられる。 メルケ

    メルケプストラムについてのまとめ - 備忘録
  • フーリエ級数展開のデモンストレーションをPythonで書いた話 - 備忘録

    はじめに 東京大学の小山先生が、フーリエ級数展開のデモンストレーションをMATLABでお書きになった。 講義でフーリエ変換というかフーリエ級数展開の説明用に作った動画をせっかくなのでここに置いておく。。 pic.twitter.com/2wm4ecjdty— Shoichi Koyama (@sh01) 2020年5月1日 この素晴らしいアニメーションをPythonで再現するスクリプトを書いても良いのではないかと思い、今回の表題に至るわけである。 ちなみに再現したアニメーションは以下の通りである。グラフの軸ラベルがずっと固定であったり、描画範囲が微妙に異なるので完全再現ではないが、それなりに再現できていると思われる。 ノコギリ波のアニメの向きを修正して再アップ pic.twitter.com/RuOil5QG0N— mat (@ballforest) 2020年5月2日 スクリプトの解説(

    フーリエ級数展開のデモンストレーションをPythonで書いた話 - 備忘録
  • Pyroomacousticsを使って部分空間法に基づく雑音抑圧を試してみた - 備忘録

    概要 Pyroomacousticsというパッケージを使って部分空間法に基づく雑音抑圧をやってみた。 Pythonスクリプト gist.github.com 結果 元の音声 soundcloud.com 雑音入りの音声 soundcloud.com 雑音抑圧後の音声 soundcloud.com 雑音を大きく削れば、それだけ元の音も削られるため、ある程度の歪みが発生することは避けられない。apply_subspace関数に渡すパラメータを調整する必要はあるが、雑音抑圧後にミュージカルノイズはあまり発生しないのが特徴と言えるだろう。

    Pyroomacousticsを使って部分空間法に基づく雑音抑圧を試してみた - 備忘録
    xiangze
    xiangze 2020/01/12
  • 密度比推定まわりの書籍・解説記事・論文・ソフトウェアの各種情報まとめ - 備忘録

    はじめに 密度比推定の文献については、すでに山田氏による素晴らしいまとめ記事がある。同記事「はじめに」より、確率密度比推定の有用性を引用すれば、 パターン認識、ドメイン適応、外れ値検出、変化点検出、次元削減、因果推論等の様々な機械学習の問題が確率密度比(確率密度関数の比)の問題として定式化できることから、近年、確率密度比に基づいた機械学習の研究が機械学習およびデータマイニングの分野において大変注目されている。 というわけである。しかしながら、同記事は2012年に書かれたもので、記事の執筆時点の2018年ではリンク切れなど、一部の情報が古くなっている。そのため、これら情報を更新したいということ。また、2012年以降、いくつか研究の進展が見られたので個人的に気になった論文を備忘録としてまとめておきたいということ。以上が記事の動機である。 以下、山田氏のまとめ記事からも情報を引っ張りつつまと

    密度比推定まわりの書籍・解説記事・論文・ソフトウェアの各種情報まとめ - 備忘録
  • MGUとかSGUといったLSTMの簡略化版をTensorFlowで実装した - 備忘録

    それぞれは以下の通り(ただしTensorFlow 0.12でのみ動作確認): MGU (Minimal Gated Unit) 論文 Minimal gated unit for recurrent neural networks 実装 An implementation for MGU based on TensorFlow. · GitHub S-LSTM (Simplified LSTM) 論文 [1601.02539] Investigating gated recurrent neural networks for speech synthesis 実装 An implementation of Simplified LSTM (S-SLTM) based on TensorFlow. · GitHub SGU (Simple Gated Unit) 論文 Deep Gate R

    MGUとかSGUといったLSTMの簡略化版をTensorFlowで実装した - 備忘録
  • 1