第4回 自然言語処理勉強会@東京 : ATND N-gram Language Model for Speech Recognition by @y_shindoh さん 音声認識の概要 音声データ(音声特徴量MFC,PLP)→音声認識エンジン(デコーダ)→音声認識結果 音響モデル+言語モデル 音声特徴量(MFC):LPCM→スペクトル→MFC フレーミング、ハミング窓、高域強調フィルタ、FFT 絶対値→聴覚フィルタ→対数化→DCT 階層モデル:単語→モーラ→音素 読みが複数ある場合は?→両方考える、確率を振ることもある音声認識のしくみ 高周波を落とした場合(電話など)は? →専用の音響モデルを作ったり、ローカルで特徴抽出したり 音声認識の種類:独立単語型、記述文法型(CFG)、ディクテーション型(N-gram) 音声認識では通常3-gramが用いられる。 単語N-gramの高精度化と0頻