久々だと思うのだが、音声認識の話題である。異論はあるかもしれないが、現在の自動音声認識は母音やある種の有声子音を中心に発達してきたように思える。DPマッチングや隠れマルコフモデルやデルタ特徴量などで、時間変化も見られるようにはなっているが、基本的にはスペクトルエンヴェロープを見ており、エンヴェロープから読みとりやすいのは母音や有声子音の種類である。 スペクトログラムを目視して、/k/,/t/,/p/などの無声破裂音、/g/,/d/,/b/などの有声破裂音を区別するのは難しい。文献を読めば、「第二フォルマントにそれらを区別する特徴が現れる」などと書かれてはいるが、それをスペクトログラムから読みとるのは相当難しいことである。「かきくけこ」と「ぱぴぷぺぽ」をスペクトログラム上で区別するのは難しいのである。また、/s/,/sh/を区別するのも難しい。 また、「やゆよ」は日本語や英語では半母音を伴っ