タグ

2022年7月14日のブックマーク (1件)

  • 【まとめ】ディープラーニングによる環境音の認識 - Qiita

    とあるきっかけで、環境音の認識(歩く音や雨の音、掃除機の音など)について、 論文を調べたので、メモとして残しておきます。 せっかくなので、精度向上の歴史を振り返る形式で、書いていきます。 データセット 精度の基準となるデータセットをご紹介します。画像の認識では、ImageNetという圧倒的な データセットがあり、性能評価で用いられます。 一方、音の認識はImageNetほど巨大ではありませんが、ESC-50というデータセットが あります。今回の基準となるESC-50の概要は以下のとおりです。 犬の鳴き声やドアのノック音など50種類、2000個の音源を収録 音源の長さは5秒間 精度評価をするときは、学習用とテスト用に分けて(5-foldなど)それぞれ評価 音の前処理 画像の前処理は、通常255で割れば良く、非常に簡単です。 一方、音の前処理は通常logmelを用います。logmelで処理する

    【まとめ】ディープラーニングによる環境音の認識 - Qiita
    stealthinu
    stealthinu 2022/07/14
    環境音認識についての簡単なサーベイ。今はPANNsという巨大データセットで学習させたものが95%とすごい性能になってる。