最近音楽を機械学習で扱うことに興味があって色々と調べているのですが、せっかくなので備忘録と理解促進を兼ねて記事にしてみます。 機械学習に限らず、音楽をデジタル情報として扱う際には楽譜や調、歌詞など、メタな情報を扱う方法と、オーディオデータそのものを扱う方法とに大別されますが、今回はオーディオデータそのものを扱う方法の一つとして、MFCCについてまとめます。 お急ぎの方向け mp3 を wav にして MFCC して現実的に扱えそうな次元に落とす # ffmpegのインストール $ brew install ffmpeg # ffmpegで mp3 を サンプリングレート 44.1kHz wavに変換 $ ffmpeg -i hoge.mp3 -ar 44100 hoge.wav # 必要なPythonパッケージのインストール $ pip install --upgrade sklearn
![音楽と機械学習 前処理編 MFCC ~ メル周波数ケプストラム係数 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/e6cd0eed0a28215598c70c1479601390e8d697f8/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU5JTlGJUIzJUU2JUE1JUJEJUUzJTgxJUE4JUU2JUE5JTlGJUU2JUEyJUIwJUU1JUFEJUE2JUU3JUJGJTkyJTIwJUU1JTg5JThEJUU1JTg3JUE2JUU3JTkwJTg2JUU3JUI3JUE4JTIwTUZDQyUyMH4lMjAlRTMlODMlQTElRTMlODMlQUIlRTUlOTElQTglRTYlQjMlQTIlRTYlOTUlQjAlRTMlODIlQjElRTMlODMlOTclRTMlODIlQjklRTMlODMlODglRTMlODMlQTklRTMlODMlQTAlRTQlQkYlODIlRTYlOTUlQjAmdHh0LWFsaWduPWxlZnQlMkN0b3AmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT01NiZzPTRlOWU0MzMwYTE1YzZkMzBhMGYxZjNkZDZjM2M4OGJi%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBtYXJ0aW4tZDI4anAtbG92ZSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9ZTI1OGNiNzQ1NGFhZWU3YzdiOTdmYzliODYzMTNkNzQ%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D6d12ad1348730e70112053de522ce2c8)