サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
買ってよかったもの
aizu-vr.hatenablog.com
こんにちは。学部3年の柴山です。 今回はPythonで音声データを機械学習させて、話者認識(誰が話しているかを判定する)をする方法を紹介したいと思います。 コード総数70行弱、しかし正答率98.7%のコスパ良しな人工知能に興味を持っていただけたのなら、ぜひ最後までお付き合いください。 データの前処理 コード まとめ データの前処理 今回使用した音声データは「12人の話者が日本中の駅名を呟いたもの」です。 音声データは駅名ごとに用意してあり、総数は約4万件、一人当たり3千ちょいあります。 ちなみに日本の駅の総数は9500個ほどらしいので、これでも一部なんですね( ̄◇ ̄;) 以下のことに気をつけていただければ音声データはなんでも平気です。 全てのデータは.wavファイルにします。 ファイル名を全て「<話者の名前>_<番号>」という形式にします。 データは学習用とテスト用に7:3の割合でディレク
このページを最初にブックマークしてみませんか?
『aizu-vr.hatenablog.com』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く