Whisper の性能①(英語音声認識) 多言語音声認識モデルといえど、学習データの65%は英語ですし、機械翻訳も Any -> English のみに対応しているため、Whisperは英語が中心のモデルと言えます。 英語音声認識タスクでよく使われているコーパスの LibriSpeech2 において、現在最も良い結果が単語誤り率(Word Error Rate; WER)1.4% であるのに対して、Whisper の large モデルは WER 2.7% であり、数値だけを見ると従来手法に劣っています3。 しかし、LibriSpeech の音声認識タスクを人間が解いた時のWER4は5.8% であるという研究報告もあるため、Whisperも十分な性能を出していると考えられます。 Whisperはそのうえで、その他の13種類の音声認識タスクでも従来手法よりも高い性能を出しており、特定のデータ