はじめに:機械が人の発話を理解するためには意図・態度・感情の認識が必須 近年、流暢な会話調の文章を自動的に生成する技術が登場し、人と日常会話が可能な機械が実現することに期待が高まっています。テキストを入出力としたチャットでは、すでに機械が流暢な応答をしてくれるようになったのは皆さんも実感なさっていると思います。 一方で、人と機械が音声で対話することを考えてみましょう。音声には、テキスト(言語情報)では表現することができない、多種多様な声のニュアンス(パラ言語情報)が含まれています。テキストにすれば全く同じ内容であっても、例えば声色の違いによって、伝えている意味が正反対になることすらあるのです。そのため、音声で人と円滑に会話を行うことができる機械を実現するためには、音声に含まれる多様なパラ言語情報を機械が認識するための技術が欠かせません。 そこで本記事では、パラ言語情報の認識技術の中でも特に