ブックマーク / qiita.com/diesekiefer (2)

  • 汎用音声認識モデル Whisper の紹介 - Qiita

    Whisper の性能①(英語音声認識) 多言語音声認識モデルといえど、学習データの65%は英語ですし、機械翻訳も Any -> English のみに対応しているため、Whisper英語が中心のモデルと言えます。 英語音声認識タスクでよく使われているコーパスの LibriSpeech2 において、現在最も良い結果が単語誤り率(Word Error Rate; WER)1.4% であるのに対して、Whisper の large モデルは WER 2.7% であり、数値だけを見ると従来手法に劣っています3。 しかし、LibriSpeech の音声認識タスクを人間が解いた時のWER4は5.8% であるという研究報告もあるため、Whisperも十分な性能を出していると考えられます。 Whisperはそのうえで、その他の13種類の音声認識タスクでも従来手法よりも高い性能を出しており、特定のデータ

    汎用音声認識モデル Whisper の紹介 - Qiita
  • オーディオファイル コーデックまとめ - Qiita

    この記事は NTTコミュニケーションズ Advent Calendar 2019の3日目の記事です。昨日は @iwashi86 さん の記事でした。 はじめに 今年4月に入社して音声認識サービスに関わっているものです。音声データを扱うにあたり、こんな資料があったらいいなと思ったため、音声ファイルのフォーマット・コーデックについてまとめてみました。 わかりやすさのために音声と表現していますが、声に限らず音響信号を「音声」とまとめて表現しています。 出典が明らかな情報を極力記載するようにしておりますが、誤りや不正確な表現等がありましたら申し訳ありません。 音声データの基 音源が振動すると空気を媒体として粗密波が発生し、それが聴覚器官を通して脳に伝わることで人間は音を認識すると考えられます。音声データはこの粗密波をマイクロフォンを用いてアナログな電気信号として検出したうえでデジタルなデータに変

    オーディオファイル コーデックまとめ - Qiita
  • 1