xiangzeのブックマーク - はてなブックマーク

von Mises分布DNNに基づく位相復元手法をPyTorchで実装した - 備忘録

はじめに実装実験特徴抽出およびミニバッチ構築について音声の分析条件実験結果おわりに追記はじめに音声の位相復元という研究トピックが存在している．分野に不慣れな人はまず，矢田部先生の解説記事を読むことをおすすめする． www.jstage.jst.go.jp 音声の位相復元をDNNで行う流れがあり，日本の研究者も大いに貢献している． speakerdeck.com 表題のvon Mises 分布DNNに基づく位相復元手法は，慶應義塾大学の高道先生が東京大学に在籍していたころの仕事である． ipsj.ixsq.nii.ac.jpvon Mises分布DNNに基づく振幅スペクトログラムからの位相復元今回はこの手法をPyTorchで実装し，位相復元の実験をしてみたということである．実装以下のリポジトリに置いた．Enjoy! github.com 基本的な構造は全結合層からなる

xiangze 2024/05/17

リンク

最適輸送理論の解説論文とか書籍へのリンクのまとめ - 備忘録

はじめにメモとして。WGANの勉強にもなるかなと。 2023年 11月追記輸送計画，輸送写像，輸送経路―有限集合とℝ2の最適輸送理論の違い― https://www.jstage.jst.go.jp/article/bjsiam/32/2/32_69/_article/-char/ja/ 2023年3月時点の最新情報最適輸送本イベントに寄せて学ぶ - Stimulator 理論入門最適輸送理論梗概 [1009.3856] Introduction to Optimal Transport Theory A user’s guide to optimal transport Introduction to Monge-Kantorovich Probl em 地球はやっぱり丸かった？！- 物質を最適な方法で運ぶ理論を用いて物の形を理解する NIPS 2017 Tutorial A

xiangze 2023/10/17

リンク

"Differential Entropic Clustering of Multivariate Gaussians"をNumbaを使って高速化してみた話 - 備忘録

はじめに前回記事で実装した Differential Entropic Clustering をもう少し高速化したいなぁ，という話． tam5917.hatena blog.com 実装やり方は簡単で，numbaをインストールして，@jit デコレータをBurg matrix divergence およびMahalanobis距離を計算する関数につけるだけ． @jit(nopython=True) def comp_burg_div(mat_x, mat_y): """Compute Burg matrix divergence.""" dim = mat_x.shape[0] mat_y_inv = LA.inv(mat_y) mat = mat_x @ mat_y_inv burg_div = np.trace(mat) - np.log(LA.det(mat)) - dim ret

xiangze 2023/08/26

リンク

日本語x-vectorから感情成分を分離するニューラルネットワークを構築してみた −感情分類に敵対的な損失関数の導入− - 備忘録

はじめに本記事は前回記事の続編に相当する．前回記事では声優統計コーパスの3話者・3感情の音声データに対してx-vector抽出器を適用し，UMAPで可視化を試みた．この可視化の実験を通じて，感情成分が分離できていない傾向が見られた．すなわち，本来は話者3クラスにも関わらず，疑似的な9クラス（= 3話者 × 3感情）が存在するように見える，というものである（x-vector抽出器の学習データを考えてみれば，それはそうなのだが）．せっかくx-vectorが手元にあるのだから，感情成分を分離/除去するフィルタの役割を果たす手法を実装してみたいと考えた．本記事はその実装の詳細と簡単な検証実験に関する報告である．感情成分を分離するニューラルネットワーク先行研究と論文今回の実装にあたり下記の論文を参考にした．本論文では，音響特徴量（ベクトル系列）に含まれる話者成分とテキスト情報を表す成分

xiangze 2023/07/27

リンク

Generalized Mahalanobis depth in the reproducing kernel Hilbert spaceをPythonで実装した話 - 備忘録

はじめに 2011年に以下の論文が出版されている． Yonggang Hu, Yong Wang, Yi Wu, Qiang Li & Chenping Hou, "Generalized Mahalanobis depth in the reproducing kernel Hilbert space," Statistical Papers volume 52, pages 511-522 (2011). link.springer.com この論文において，再生核ヒルベルト空間（Reproducing Kernel Hilbert Space; RKHS）上でMahalanobis depthを計算する方法が提案された．それを具体的にPythonで実装してみたので紹介するのが本記事の主旨である．統計的depthとは統計的depthは多次元空間のmedianを考える際に出てくる統

xiangze 2023/06/14

リンク

カーネルPCAに基づく外れ値検知にサブセットのサンプリング機能を実装して計算量削減を図った話 - 備忘録

はじめに先の記事 tam5917.hatena blog.com にてカーネルPCAに基づく外れ値検知を実装したが、計算量が多く使い物にならない。そこで本記事では、 tam5917.hatena blog.com の記事にある、データセットのサブサンプリングを組み込むことで計算量を減らしつつ、検知性能がどの程度キープされるかを簡単に確認してみた。実装実装は以下の通り。ここをクリックしてコードを表示する gist.github.com 検証サブセットのサイズは、元のデータセットの20%になるようにランダムサンプリングした。以下がそのノートブックである。 gist.github.com KPCA（SP）がサブセットのサンプリング版である。サンプル数の多いデータセットほど時間削減の幅は大きい（mnist、optdigits、pendigits、satellite、satimage-2）。

xiangze 2022/11/28

異常検知

リンク

異常音検知関連の情報まとめ - 備忘録

異常音検知に関して、まとめてリストしておく。備忘録。解説論文・スライドスライド論文ソフトウェアデータセット書籍コンペティション解説論文・スライドスライド音響信号に対する異常音検知技術と応用音響信号に対する異常音検知技術と応用 from Yuma Koizumi www.slideshare.net 統計的手法に基づく異常音検知の理論と応用統計的手法に基づく異常音検知の理論と応用 from Yuma Koizumi www.slideshare.net 異常音検知に対する深層学習適用事例異常音検知に対する深層学習適用事例 from NU_I_TODALAB www.slideshare.net 論文深層学習を用いた異常検知技術（解説論文） Link 環境音分析の研究動向（解説論文） Link 環境音分析・異常音検知の研究動向（解説論文）Link DCASE 202

xiangze 2022/11/22

リンク

微分可能な複素正弦波オシレータを用いて日本語5母音を近似させてみた - 備忘録

はじめに実装実験実験条件実験結果おわりにはじめに SNSにて、しゃをみん氏が興味深い記事をツイートされていた。昨日書きました。「コンピューターは遂に「音の高低」を理解した」と言えるほどの大きな進歩です。【注目論文】Sinusoidal Frequency Estimation by Gradient Descent https://t.co/SbbNlZkdAW #Qiita @syao_mingより— しゃをみん (@syao_ming) November 13, 2022 上記の記事で紹介されている論文は、いわゆる複素正弦波オシレータが微分可能な形で定式化されることを示していた。この「微分可能」なオシレータでは、元の波形を複素正弦波の重ね合わせで近似的に表現する。そして各サンプル点において計算される波形の近似誤差に基づき、勾配降下法を利用してその誤差が小さくなるよ

xiangze 2022/11/19

リンク

AIミュージックバトル！『弁財天』のスターターキットをPyTorchに移植してアドリブメロディの自動生成を試してみた - 備忘録

はじめにスターターキットについてスターターキットが提供するモデルの概要実装必要なパッケージ実装の概要メロディ生成実験実験条件実験結果実装の舞台裏やTIPS、TensorFlow版との違いなどおわりにはじめに最近、下記のイベントが開催されることがアナウンスされた。 benzaiten.studio.site 『AIミュージックバトル！『弁財天』は「伴奏」から「アドリブメロディ」をAIで生成し「どれだけイケてるメロディか」を競うAI自動作曲コンテストです。』とのことである。本コンテストではTensorFlowベースのスターターキット（Google Colabで実行可能）が提供されており、自動作曲初心者でも無理なく始められるようになっている。筆者はPyTorchユーザなので、スターターキットのPyTorch版を作成しておきたいと思ったわけである。自動作曲自体に興味が

xiangze 2022/11/03

リンク

メルケプストラムについてのまとめ - 備忘録

はじめにメルケプストラムとは何か？一言で表せば、人間の聴覚特性を考慮したケプストラムとなるだろうか。本記事ではメルケプストラムについて簡単にまとめる。メルケプストラムの特徴ケプストラムとメルケプストラムの違いは以下の図に示す通りである。いずれもスペクトル包絡を少ない情報量で表現するパラメータ（音響特徴量）である。ケプストラムは周波数軸上、一様なスケールでスペクトルをサンプリングし、フーリエ変換することによって得られる*1。しかしながら、低周波数領域では感度が高く、高周波数領域では感度に乏しいという人間の聴覚特性が考慮されていない。メルケプストラムは、一様な周波数スケールから聴覚特性を反映したメルスケールへと周波数伸縮し、このメルスケール上でスペクトルをサンプリングして得られるケプストラムである。利点としては、通常のケプストラムよりも次数が少なく済むことなどが挙げられる。メルケ

xiangze 2021/09/10

音声

リンク

フーリエ級数展開のデモンストレーションをPythonで書いた話 - 備忘録

はじめに東京大学の小山先生が、フーリエ級数展開のデモンストレーションをMATLABでお書きになった。講義でフーリエ変換というかフーリエ級数展開の説明用に作った動画をせっかくなのでここに置いておく。。 pic.twitter.com/2wm4ecjdty— Shoichi Koyama (@sh01) 2020年5月1日この素晴らしいアニメーションをPythonで再現するスクリプトを書いても良いのではないかと思い、今回の表題に至るわけである。ちなみに再現したアニメーションは以下の通りである。グラフの軸ラベルがずっと固定であったり、描画範囲が微妙に異なるので完全再現ではないが、それなりに再現できていると思われる。ノコギリ波のアニメの向きを修正して再アップ pic.twitter.com/RuOil5QG0N— mat (@ballforest) 2020年5月2日スクリプトの解説（

xiangze 2020/05/03

python

リンク

Pyroomacousticsを使って部分空間法に基づく雑音抑圧を試してみた - 備忘録

概要 Pyroomacousticsというパッケージを使って部分空間法に基づく雑音抑圧をやってみた。 Pythonスクリプト gist.github.com 結果元の音声 soundcloud.com 雑音入りの音声 soundcloud.com 雑音抑圧後の音声 soundcloud.com 雑音を大きく削れば、それだけ元の音も削られるため、ある程度の歪みが発生することは避けられない。apply_subspace関数に渡すパラメータを調整する必要はあるが、雑音抑圧後にミュージカルノイズはあまり発生しないのが特徴と言えるだろう。

xiangze 2020/01/12

リンク

密度比推定まわりの書籍・解説記事・論文・ソフトウェアの各種情報まとめ - 備忘録

はじめに密度比推定の文献については、すでに山田氏による素晴らしいまとめ記事がある。同記事「はじめに」より、確率密度比推定の有用性を引用すれば、パターン認識、ドメイン適応、外れ値検出、変化点検出、次元削減、因果推論等の様々な機械学習の問題が確率密度比(確率密度関数の比)の問題として定式化できることから、近年、確率密度比に基づいた機械学習の研究が機械学習およびデータマイニングの分野において大変注目されている。というわけである。しかしながら、同記事は2012年に書かれたもので、本記事の執筆時点の2018年ではリンク切れなど、一部の情報が古くなっている。そのため、これら情報を更新したいということ。また、2012年以降、いくつか研究の進展が見られたので個人的に気になった論文を備忘録としてまとめておきたいということ。以上が本記事の動機である。以下、山田氏のまとめ記事からも情報を引っ張りつつまと

xiangze 2018/01/18

機械学習

リンク

MGUとかSGUといったLSTMの簡略化版をTensorFlowで実装した - 備忘録

それぞれは以下の通り（ただしTensorFlow 0.12でのみ動作確認）： MGU (Minimal Gated Unit) 論文 Minimal gated unit for recurrent neural networks 実装 An implementation for MGU based on TensorFlow. · GitHub S-LSTM (Simplified LSTM) 論文 [1601.02539] Investigating gated recurrent neural networks for speech synthesis 実装 An implementation of Simplified LSTM (S-SLTM) based on TensorFlow. · GitHub SGU (Simple Gated Unit) 論文 Deep Gate R

xiangze 2016/09/10

リンク

はてなブックマーク

タグ

ブックマーク / tam5917.hatenablog.com (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス