日本声優統計学会より無償利用可能な発話データが公開されたので分析してみました。 (ソースはGitHubで公開中 https://github.com/roadroller2da/sound-recognition ) 日本声優統計学会より プロの女性声優 3 名が 3 パターンの感情で音素バランス文を読み上げたファイルです.48kHz / 16bit の WAV ファイルであり,総長約 2 時間,総ファイルサイズ 720 MB です. この音声ファイルは主に個人での研究・分析目的でのみ無償で利用可能です. 再配布や公序良俗に反する利用などの,実演家の著作隣接権を侵害する行為は禁止します. http://voice-statistics.github.io/ MFCC抽出 音認識でポピュラーなのはやはりMFCCということで抽出します。 scikits.talkbox.featuresを使えば