まだ終わらない。 ここから手作業でコーナーの切り替わりシーンの部分とか、音楽流すコーナーとか、他の人の声が入ってる部分とかを手作業で削除していった。 ただ、バックで小さな音楽が常に流れているのはもうどうしようもないので無視。 このバックの音の影響を最小限、もしくは無くすにはどうすればいいんだろうか・・。 とりあえず、これでデータ収集は完了! 2.データから特徴量を抽出する 周波数強度を特徴量にしたらいいんじゃない?高速フーリエ変換だ!となるが、 オライリーから出てる実践機械学習システムにはそれよりメル周波数ケプストラム係数(MFCC)ってやつを使った方がいいよ!と書いてたので今回はそっちを使うことにする。 色々見てみたところ、現在の音声認識ではMFCCが代表的な特徴量として用いられていて、人間の音声知覚の特徴を考慮してるらしい。 しかし、MFCCにはピッチの情報が含まれないようだ。 ケプス
![声優の声を分類してみた - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/4c62a0d7344b8a7e4950f546989a6dc7f050511b/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9JUU1JUEzJUIwJUU1JTg0JUFBJUUzJTgxJUFFJUU1JUEzJUIwJUUzJTgyJTkyJUU1JTg4JTg2JUU5JUExJTlFJUUzJTgxJTk3JUUzJTgxJUE2JUUzJTgxJUJGJUUzJTgxJTlGJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmcz02NGY3NGMyNmE0MTI2NjZlN2IyZTY4MTExMTdmNGJhMg%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDAxMjM0MjI0NTc2JnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9MzYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1lYzU5MzgzZWFkNTVkMThjMGIyNGQwYTQxNGRjZWI1Yw%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D99a480d65ebd4679b2c2a09a674e9201)