●NTT音声認識技術の最前線 NTTコミュニケーション科学基礎研究所 メディア情報研究部 グループリーダ 中村 篤さん 音声認識 10-15年前:ヘッドセット、マイクロフォン、一人、発話スタイルは朗読 認識率:85%くらい 超高速音声認識エンジン 音声認識基礎技術→音声コミュニケーションを「ことば」に書き下す技術 重み付き有限状態トランスデューサー WFST型音声認識 WFSTによって→エンジン軽量化、複数モデルを統合・知識源全体を再整理→素早く動く、探しやすい http://ocw.mit.edu 音声区間検出技術→マルコフモデル 雑音抑圧技術 雑音は主観的 人による こういう音を消すのではなく、空間的な雑音を除去する 同時発音 「多様な環境下での音信号の音響・音声言語的解釈」技術へ 組み込みでも全然いける 軽い 処理量が非常に小さい 同時翻訳 ●音声認識応用アプリの現状と未来 NTTサ