去年の12月,古井先生が「なにかが足りない音声認識研究」というタイトルで発表をなさった. 現在までの音声認識研究を振り返った上で,「なにかが足りない,けどそれがなにかは知らない」という内容. かなり刺激的なお話だったので,各地からいろんな反響(例えばhttp://d.hatena.ne.jp/tihara/20091226)があった. 「なにが足りないのか?」にはいろんな答えがあると思う.答えは一つだけではないと思う. その上で,僕は 時刻tじゃない音声認識 が一つの答えになるのかなあ,と考えている. 以下,これまで行われてきた変化に着目した音声認識に関する研究を見ながら,自分なりの考えを書きたいと思う. デルタ特徴量関係 デルタ特徴量は,古井先生が提案された,今やデファクトスタンダードな特徴量. デルタ特徴量は,時系列の特徴量に対する回帰係数のことで, 具体的には時刻tのフレームの前後N