stealthinuのブックマーク / 2022年7月14日

【まとめ】ディープラーニングによる環境音の認識 - Qiita

とあるきっかけで、環境音の認識（歩く音や雨の音、掃除機の音など）について、論文を調べたので、メモとして残しておきます。せっかくなので、精度向上の歴史を振り返る形式で、書いていきます。データセット精度の基準となるデータセットをご紹介します。画像の認識では、ImageNetという圧倒的なデータセットがあり、性能評価で用いられます。一方、音の認識はImageNetほど巨大ではありませんが、ESC-50というデータセットがあります。今回の基準となるESC-50の概要は以下のとおりです。犬の鳴き声やドアのノック音など50種類、2000個の音源を収録音源の長さは5秒間精度評価をするときは、学習用とテスト用に分けて(5-foldなど）それぞれ評価音の前処理画像の前処理は、通常255で割れば良く、非常に簡単です。一方、音の前処理は通常logmelを用います。logmelで処理する

はてなブックマーク

タグ

2022年7月14日のブックマーク (1件)

【まとめ】ディープラーニングによる環境音の認識 - Qiita

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス