発話には、どもりや間、「う~ん」といったためらいが入る。単語の発音が不明瞭なこともよくあり、私たちをこうしたものを無意識に補正しながら音声認識している。 発話を一言一句聞き取って文字起こしするのは意外にむつかしく、エラーがつきものだ。人間でもむつかしい音声認識はAIにとってはさらに困難。GoogleやAppleなんかの音声認識AIの精度は向上しているが、多少のエラーは大目に見ながら音声入力しているだろう。 こうしたなか、カールスルーエ工科大学(KIT)の研究者らは、人間よりも優れたパフォーマンスを発揮する音声認識AIを開発している。「講義ライブ翻訳機」に実装KITの研究者とKIT発のスタートアップ「KITES」が開発したシステムは、人間よりもうまく音声認識し、ほかのシステムよりも遅延が少ないという。 研究者は以前、大学の講義をドイツ語や英語から、留学生の母国語にライブ翻訳するシステムを開発