年に数回くらい「音声認識でこんなことはできますか」という趣旨のメールが来るので、やりやすいこととやりづらいことを書いておこうと思う。なお、これは現時点での技術状況であり、将来どうなっているかは分からない。 1.大量データは得意。 やはり機械なので、大量のデータの処理には向いている。別に少量のデータでも精度が変わることはないが、少量のデータなら人間がやった方が精度がいいので音声認識の導入はあまり意味がない。 2.雑音に弱い。 マイクと口の距離が近ければ周りの音はさほど問題にならないが(携帯電話など)、距離が離れると相対的に周りの音が大きくなるので精度が落ちる。ただし、雑音の種類が分かっている場合には(車の走行音など)、事前に準備ができるため、そこまでひどく精度が落ちることはない。 3.話し手が分かっていると助かる。 機械にとって別の人の声は同じことを喋っていても別の音なので、人による声の違い