r2d.info[B!]新着記事・評価 - はてなブックマーク

『r2d.info』

GANとVAEの一覧とまとめ
3 users
r2d.info

久しぶりに記事を更新します、ロードローラーです。今年はICMLとCVPRがロングビーチで連続開催ですね！潜在空間の操作やDisentangleが大好きな私としては周辺研究をチェックしてきたいと思います。そんなこんなで、出国前に軽く整理しようと思ってまとめました AutoEncoderの潜在変数（中間特徴量）のｚに事前分布を仮定する。これにより特徴量の連続性を担保したり、潜在変数がスパースになること防ぐ。 β-VAE VAEでは潜在変数の分布が仮定した事前分布にFITするように、KL距離を最小化させるような制約を設ける。このKL距離による制約を変数βによって調整すると、分布をフィットさせる圧力が強くかかる。その結果として潜在変数の各成分の独立性が増して、MNISTだと角度や文字太さといった成分が潜在変数の特定の成分に対応するようになる。なお、学習がある程度進むと『全ての成分が独立』と
- 暮らし
- 2019/06/08 13:04

日本声優統計学会の公開データを使って声優さんの声認識
4 users
r2d.info

日本声優統計学会より無償利用可能な発話データが公開されたので分析してみました。（ソースはGitHubで公開中 https://github.com/roadroller2da/sound-recognition ）日本声優統計学会よりプロの女性声優 3 名が 3 パターンの感情で音素バランス文を読み上げたファイルです．48kHz / 16bit の WAV ファイルであり，総長約 2 時間，総ファイルサイズ 720 MB です．この音声ファイルは主に個人での研究・分析目的でのみ無償で利用可能です．再配布や公序良俗に反する利用などの，実演家の著作隣接権を侵害する行為は禁止します． http://voice-statistics.github.io/ MFCC抽出音認識でポピュラーなのはやはりMFCCということで抽出します。 scikits.talkbox.featuresを使えば
- アニメとゲーム
- 2017/11/06 14:28

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx