タグ

音声認識とWikipediaに関するsotukenyouのブックマーク (4)

  • 音声認識 - Wikipedia

    音声認識(おんせいにんしき、英: speech recognition)は声がもつ情報をコンピュータに認識させるタスクの総称である[1]。ヒトの(天然)音声認識と対比して自動音声認識(英: Automatic Speech Recognition; ASR)とも呼ばれる[2]。 例として文字起こしや話者認識が挙げられる。 音声認識は「音声に含まれる情報を認識するタスク」の総称であり、具体的に解かれる問題の例として以下が挙げられる: Speech-to-Text (STT): 含まれる言語情報を文字に変換するタスク。いわゆる文字起こし キーワード認識(英語版)(KWS): 事前に設定されたキーワードの出現を認識するタスク。例として「ヘイ、Siri」 音声認識をサブタスクとして含むタスクには以下が挙げられる: 音声操作: 音声によるアプリの操作。SST/KWSで音声情報を取り出し、これをコンピ

  • 話者認識 - Wikipedia

    話者認識(わしゃにんしき、英: speaker recognition)は、人間の声から個人を認識(識別や認証)するコンピュータによる処理。音声から特徴を抽出し、モデル化し、それを使って個人の声の認識を行う。 誰の声であるかを識別する「話者認識」は、何を話しているかを認識する「音声認識」とは異なる。英語では話者認識を voice recognition とも呼ぶが、これを音声認識の意味で間違って使っている場合がある。 話者認識は約40年前、アナログのフィルタの出力を平均化したもので一致するかどうかを調べるという形式で始まった。話者認識は、人によって異なる声の音響的特徴を利用する。そういった音響パターンは、解剖学的特徴(咽喉や口の大きさや形状)と生まれ育ってきた環境(話すスピードやスタイル)に起因する。このように後天的に学習したパターンも声に影響するため、話者認識は「行動的特徴」を用いた生体

  • フォルマント - Wikipedia

    スペクトログラム:アメリカ英語の[i, u, ɑ]のF1とF2 フォルマント(英: formant、ホルマント)は音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域である[1]。 時間変化する音声を一定区間で区切り周波数領域へ変換すると、周波数帯ごとに強弱がみられる。すなわちスペクトル包絡が山谷をもっている。この山に当たる周波数帯をフォルマントという。フォルマントは複数個存在する場合もあり、周波数の低い順に第一フォルマント、第二フォルマントと呼ばれ、それぞれの周波数をF1, F2と表記する[2]。また経時的に変化する場合もある。 声の波形に現れるフォルマントは声道の形状から強く影響を受ける。ゆえに個体差や性差もフォルマントの違いを生む原因となる。音価が同じであれば各フォルマント周波数は近い値になる。 フォルマントは発声過程における調音で主に付与される。すなわち比較的平坦な周波

    フォルマント - Wikipedia
  • ケプストラム分析 - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14)の第18回目。 今回は、音声の特徴量としてよく使われるMFCC(Mel-Frequency Cepstrum Coefficients: メル周波数ケプストラム係数)抽出に向けた第一歩としてケプストラム分析を試しました。Wikipediaでケプストラムの定義を見てみると。 ケプストラムは1963年、Bogertらの論文で定義された。ケプストラムの定義は以下の通り。 口語的定義: (信号の)ケプストラムとは、(信号の)フーリエ変換の対数(位相アンラッピングを施したもの)をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。 数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。 アルゴリズ

    ケプストラム分析 - 人工知能に関する断創録
  • 1