スマホの音声入力では、マイクに向かってしゃべった声が、リアルタイムに文章として入力されます。その裏側を支えているのが「音声認識」。声を分析し、文字のデータに変換する技術です。「Alexa、電気消して」も「Hey Siri、明日の天気は?」も、音声認識なしには実現しません。 最近では、会議の音声から議事録を作ったり、音声で作業記録を付けたりなど、音声認識の用途は拡がりを見せているそう。一方で、「インタビューの文字起こしがうまくいかない」など、思うように認識されないという声も耳にします。 そもそも、音声認識はどうやって人間の声を認識しているのか? 日本語の音声認識はどこが難しいのか? 音声認識ソリューションを手がける株式会社アドバンスト・メディアの安藤さんに、音声認識の気になる裏側を聞きました。 株式会社アドバンスト・メディア 1997年に創業し、音声認識技術「AmiVoice」をコアとした各