音声からメル周波数ケプストラム係数(以下、mfcc)を抽出し、ニューラルネットモデルで学習する機械を実装しました。 github.com 実装環境は以下のとおり。 Python 2.7.10 numpy 1.9.2 progressbar2 2.7.3 PyBrain 0.3 scikits.talkbox 0.2.5 scipy 0.16.0 ffmpeg sox 使用言語はPython。mfccの抽出にはscikits.talkboxを使い、ニューラルネットの構築にはPyBrainを使用しました。 ffmpegとsoxは動画から音声ファイルを抽出するとき、抽出した音声ファイルを分割するとき、に使っています。 使い方としては以下のとおり。 初めに、スクリプトを実行するためにいくつかフォルダを作ります。 mkdir mov wav wav2 voice voice2 doc 次に、「mov