本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識を利用した対話システムの構成を紹介する。 対話システムには音声理解も必要 今回は、音声認識を利用した対話システムの構成を紹介する。音声対話システムは、音声を理解して適切に応答するシステムである。学術的には音声認識は音声を文字にする部分までで、言語的な解析や意図の理解は音声理解の領域である。音声対話システムでは、例えばユーザーが「東京から京都まで」と言った時に、出発地が東京で目的地は京都であると理解し、適切に応答することが求められる。 音声対話システムの一般的な構成を図6に示した。まず音声を文字にする「音声認識」部があり、用途に応じて意味や概念などを理解する「言語理解」部がある。例えば天気を案内するシステムでは、「XXの天気」と言われたらXXを特定できなければならない
![無数にある想定外の問いかけが音声対話システムを難しくする](https://cdn-ak-scissors.b.st-hatena.com/image/square/e3f1791258ad84ed7aa59c97c7195974c7c7585c/height=288;version=1;width=512/https%3A%2F%2Fxtech.nikkei.com%2Fdm%2Fatcl%2Ffeature%2F15%2F101200142%2F00003%2Findex_m.jpg%3F20220512)