デルタパラメータとは? † 音声認識の際、動的な特徴をあらわす指標として使われる。 初出は Furui, 1986.*1 意義 中川, 2000.*2 より引用 スペクトルの時間方向の動的変化の特徴は音声認識にとって重要なパラメータであり、これを回帰モデルでモデル化し、1次回帰係数(Δケプストラム)、2次回帰係数(ΔΔケプストラム)と呼ばれ広く用いられている(隣接スペクトルの差分もΔケプストラムと呼ばれており、同様に効果がある) 和田ら, 2002.*3 より引用 デルタケプストラムは、ケプストラムの時間変化の微分を差分ベクトルにより近似した動的特徴量である。(略) LPCケプストラムを取り除きデルタケプストラムのみを特徴量として用いることで耐雑音性が改善されると考えられる。しかしながらデルタケプストラムのみを特徴量とするには母音などの定常に近い音声の認識に不安を残す。 計算方法 HTK
知識ベースのなかから適切なテーマを選りすぐって企画されたものです.内容に関しては新規執筆も含めて,より分かりやすく再編集されています.いわば学会の知の結晶を,皆様により充実した形でお届けするものです. 本シリーズを通じて,電子情報通信の最先端分野の面白さを堪能して頂ければ幸いです. 企画代表 原島 博「刊行のことば」より ●感覚・知覚・認知の基礎 乾 敏郎 監修 →詳細はこちら ●医療情報システム 黒田 知宏 監修 →詳細はこちら ●画像入力とカメラ 寺西 信一 監修 →詳細はこちら ●宇宙太陽発電 篠原 真毅 監修 →詳細はこちら ●電子システムの電磁ノイズ −評価と対策− 井上 浩 監修 →詳細はこちら ●マイクロ波伝送・回路デバイスの基礎 橋本 修 監修 →詳細はこちら ●将来ネットワーク技術 −次世代から新世代へ− 浅見 徹 監修 →詳細はこちら ●ネットワークセキュリティ 佐々木
聴覚テレプレゼンスロボット(テレヘッド)の研究 この研究の目的は、ユーザがあたかもその場に居るかのように離れた場所の音場をリアルに再現する、 聴覚テレプレゼンスシステムを実現することです。 これまでの3次元音場を再現する技術は、頭部の周りの音響伝達関数の精密な計測と、 複雑な信号処理およびそれに伴う膨大な演算量を必要とします。また、想定する受聴点は空間のある一点だけで、 かつ、頭部静止状態での受聴を前提としています。一方、私たちが提案するテレロボティクス方式は、 マイクロフォンを仕込んだダミーヘッドをユーザの頭部運動に追従させる方式です。 このテレロボティクス方式は、脳の聴覚情報処理が自らの身体形状と運動と密接に結びついていることを 利用したもので、精密な頭部伝達関数を事前に計測しなくても、複雑な信号処理をしなくても、受聴者の頭部や音源が動いても、 リアルな3次元音場を再現できます。ダミー
時間的に伸縮はしていないと仮定して話をします。 二つの波形(ディジタル)を x(k),y(k) (k=0,1,2,...,N-1) とします。 二つの波形の相関は R = Σ x(k)y(k) で定義されます。Σは 0 から (N-1) までを取ります。 R が大きければ二つの波形は似ているのですが、残念なことに一方の波形の振幅が大きいとき、似ていなくても R が大きくなります。 そこで、類似度 S = R / (PX PY) を計算します。PX, PY は波形の二乗和の平方根です(自分自身との相関の平方根と言うこともできます)。 一般に 1 ≧ S ≧ -1 で、S = 1 になるのは、二つの波形が正定数係数を除いて一致するときです。したがって、S の大きさにより類似性が判定できます。 なお、以上は時間的にずれがない場合です。ずれがあり、しかも未知の場合は R = Σ x(k)y(k)
実験をデジタルビデオに収めて、その音声データから測定分析を行いました。 以下は次の加筆分までは、以前発表のものです。 ランニングACF分析の様子。「あ」と2回発声しました。 パワースペクトラム表示 パワースペクトラムから眺めたところでは、ピーク周波数は48.4 Hz、118.4 Hz、150.7 Hz、236.9 Hz、355.3 Hz、484.5 Hz、597.5 Hz、650 Hz、716 Hz、834.4 Hz、958 Hz、1259.7 Hz、2799.3 Hz、3149.2 Hzなどです。 ACFから眺めてみると、ACFの場合は山のピークのX軸を読みます。遅れ時間です。遅れ時間がmsec単位の場合、1000をこの遅れ時間で割ると周波数成分が出ます。これはパワースペクトラムのピークと同じ意味を持ちます。 このACFのグラフは音響信号を10 msecの積分時間で、ランニングステップ5
音声を取り込む・再生する † WAVREAD Microsoft WAVE (".wav") サウンドファイルの読み込み filename = 'a.wav'; %読み込むファイル名を指定 [data,Fs,Bits] = wavread(filename); %dataに音声データ、Fsにはサンプリング周波数を代入 sound(data,Fs); %サンプリング周波数 Fs で再生 wavplay(data,Fs); %サンプリング周波数 Fs でWindows のオーディオ出力を使って再生 wavplay(data,Fs,'async'); %音声の再生に平行して処理を続行する disp('再生中...'); デフォルトで、以下のような音声データが用意されています。 load laughter; %笑い声 sound(y, Fs); load handel; %handelのハレルヤ
音声認識(おんせいにんしき、英: speech recognition)は声がもつ情報をコンピュータに認識させるタスクの総称である[1]。ヒトの(天然)音声認識と対比して自動音声認識(英: Automatic Speech Recognition; ASR)とも呼ばれる[2]。 例として文字起こしや話者認識が挙げられる。 タスク[編集] 音声認識は「音声に含まれる情報を認識するタスク」の総称であり、具体的に解かれる問題の例として以下が挙げられる: Speech-to-Text (STT): 含まれる言語情報を文字に変換するタスク。いわゆる文字起こし キーワード認識(英語版)(KWS): 事前に設定されたキーワードの出現を認識するタスク。例として「ヘイ、Siri」 音声認識をサブタスクとして含むタスクには以下が挙げられる: 音声操作: 音声によるアプリの操作。SST/KWSで音声情報を取り出
話者認識(わしゃにんしき、英: speaker recognition)は、人間の声から個人を認識(識別や認証)するコンピュータによる処理。音声から特徴を抽出し、モデル化し、それを使って個人の声の認識を行う。 誰の声であるかを識別する「話者認識」は、何を話しているかを認識する「音声認識」とは異なる。英語では話者認識を voice recognition とも呼ぶが、これを音声認識の意味で間違って使っている場合がある。 話者認識は約40年前、アナログのフィルタの出力を平均化したもので一致するかどうかを調べるという形式で始まった。話者認識は、人によって異なる声の音響的特徴を利用する。そういった音響パターンは、解剖学的特徴(咽喉や口の大きさや形状)と生まれ育ってきた環境(話すスピードやスタイル)に起因する。このように後天的に学習したパターンも声に影響するため、話者認識は「行動的特徴」を用いた生体
スペクトラム(spectrum)とは † 音声や地震波などの周期性のある信号は、どれだけ複雑な信号であっても、単純な波に分解できる(フーリエの定理) 単純な波...単一の周波数と振幅をもつ正弦波、余弦波 上記の定理に従って、ある信号の周波数成分と振幅の成分を抽出したものが、周波数スペクトラム(スペクトル)です*1。 スペクトラムの求め方(MATLABによる説明) 以下のような複雑な波を考えます。 MATLABで上の波を生成するには、以下のコードを実行 time = 0 : 1 / 8820 : 0.05; sinwav_1 = 1.2 * sin(2 * pi * 130 * time); coswav_1 = 0.9 * cos(2 * pi * 200 * time); sinwav_2 = 1.8 * sin(2 * pi * 260 * time); coswav_2 = 1.4
スペクトログラム:アメリカ英語の[i, u, ɑ]のF1とF2 フォルマント(英: formant、ホルマント)は音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域である[1]。 概説[編集] 時間変化する音声を一定区間で区切り周波数領域へ変換すると、周波数帯ごとに強弱がみられる。すなわちスペクトル包絡が山谷をもっている。この山に当たる周波数帯をフォルマントという。フォルマントは複数個存在する場合もあり、周波数の低い順に第一フォルマント、第二フォルマントと呼ばれ、それぞれの周波数をF1, F2と表記する[2]。また経時的に変化する場合もある。 声の波形に現れるフォルマントは声道の形状から強く影響を受ける。ゆえに個体差や性差もフォルマントの違いを生む原因となる。音価が同じであれば各フォルマント周波数は近い値になる。 音声との関係[編集] フォルマントは発声過程における調音で主に
Pythonで音声信号処理(2011/05/14)の第18回目。 今回は、音声の特徴量としてよく使われるMFCC(Mel-Frequency Cepstrum Coefficients: メル周波数ケプストラム係数)抽出に向けた第一歩としてケプストラム分析を試しました。Wikipediaでケプストラムの定義を見てみると。 ケプストラムは1963年、Bogertらの論文で定義された。ケプストラムの定義は以下の通り。 口語的定義: (信号の)ケプストラムとは、(信号の)フーリエ変換の対数(位相アンラッピングを施したもの)をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。 数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。 アルゴリズ
車の運転時にカーナビゲーション・システムのボタンを押したい,料理中にテレビの音量を上げたいなど,手が離せない状況で機器を操作したい場面は少なくない。そういったシーンに有望なのが音声認識システムである。ところが,多くの音声認識システムはマイクの性能や周囲の雑音などに影響を受けやすく使いづらい。カーナビゲーション・システムであれば,車のエンジン音,再生中の音楽,街頭からの騒音など様々な音が混ざるため,うまく認識できない。ところが組み込み機器向け音声認識システムを開発・販売する米Fonix社は,雑音下でも認識できる音声認識エンジンを提供している。同社は2005年1月より日本での販売を本格化している。アジアセールスのディレクタのJohn Shepherd氏(写真)に話を聞いた。(聞き手=中道 理) ――なぜ雑音下でも認識できるのか。 ニューラルネットを使っていることが大きい。ニューラルネットは脳の
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く