この記事は NTTコミュニケーションズ Advent Calendar 2019の3日目の記事です。昨日は @iwashi86 さん の記事でした。 はじめに 今年4月に入社して音声認識サービスに関わっているものです。音声データを扱うにあたり、こんな資料があったらいいなと思ったため、音声ファイルのフォーマット・コーデックについてまとめてみました。 わかりやすさのために音声と表現していますが、声に限らず音響信号を「音声」とまとめて表現しています。 出典が明らかな情報を極力記載するようにしておりますが、誤りや不正確な表現等がありましたら申し訳ありません。 音声データの基本 音源が振動すると空気を媒体として粗密波が発生し、それが聴覚器官を通して脳に伝わることで人間は音を認識すると考えられます。音声データはこの粗密波をマイクロフォンを用いてアナログな電気信号として検出したうえでデジタルなデータに変