speech-recognitionに関するshogen2018のブックマーク (2)

  • 音声認識 - Wikipedia

    音声認識(おんせいにんしき、英: speech recognition)は声がもつ情報をコンピュータに認識させるタスクの総称である[1]。ヒトの(天然)音声認識と対比して自動音声認識(英: Automatic Speech Recognition; ASR)とも呼ばれる[2]。 例として文字起こしや話者認識が挙げられる。 音声認識は「音声に含まれる情報を認識するタスク」の総称であり、具体的に解かれる問題の例として以下が挙げられる: Speech-to-Text (STT): 含まれる言語情報を文字に変換するタスク。いわゆる文字起こし キーワード認識(英語版)(KWS): 事前に設定されたキーワードの出現を認識するタスク。例として「ヘイ、Siri」 音声認識をサブタスクとして含むタスクには以下が挙げられる: 音声操作: 音声によるアプリの操作。SST/KWSで音声情報を取り出し、これをコンピ

  • 音声認識について考える -内部構造によるパターン認識の研究-

    <音声認識について考える> <メッセージ> 音声科学の研究は、日常生活に役立つ成果をもたらしています。これからさらに発展するためには、まだ完全に明確になっていない音声認識の原理の解明が不可欠のように感じています。 特定の音素の組が存在する理由を口の構造に結びつけてその特徴を理解することで、同じ意味のパターンの形が多様に変化する、パターンの多様性を説明できないかどうか考えています。 来の理想的な形から、それが現実の世界では多種多様に崩れていると云う描写です。 このページが何かの参考になれば幸いです。 <音声のパターン認識についての簡単な説明> もっとも簡単なパターン認識 の方法は、お手と見比べて同じものなら、それと判断するものである。例えば、日語の片かなの「あ」を認識することを 考えてみよう。右の図を見て欲しい。パターン認識する機械に、入力されたもの(右の手書きの「あ」)を、お手(左

  • 1