会話ロボットに用いられる音声認識・対話機能は、数年前の水準とは別物といえるほど大きく向上した。飛躍的な向上を実現したのが、4~8個という多数のマイクを利用したビームフォーミングと雑音抑制技術の向上、そしてディープラーニング(深層学習)に基づく人工知能の進展である。雑音が大きい悪条件下でも、人間を超える音声認識率を達成する例も出てきた。 最近3年ほどの音声認識・対話の機能向上のスピードは、かつての研究者が目を疑うほど速い。以前は不可能とされたことが次々と実現できるようになっているのだ。山積していた課題の多くが解決、または解決のメドが見え始め、人間並みの音声認識率を得られる時代が見えてきている(図1)。 音声認識や対話技術に関する従来の課題と、その改善状況を示した。Amazon.com社のAmazon Echoが、音声認識の使い勝手を左右する課題を大幅に改善。音声認識の基本性能も、この3年ほど