[B! 音声認識] sotukenyouのブックマーク

sotukenyou id:sotukenyou

音声認識に関するsotukenyouのブックマーク (20)

WO2012-014301号飲酒状態判定装置及び飲酒状態判定方法 - astamuse
sotukenyou 2013/11/27
音声

データ

方法

技術

音声認識

周波数

設定

解析

英語
リンク
動的特徴量（デルタパラメータ） - Miyazawa’s Pukiwiki 公開版
デルタパラメータとは？ † 音声認識の際、動的な特徴をあらわす指標として使われる。初出は Furui, 1986.*1 意義中川, 2000.*2 より引用スペクトルの時間方向の動的変化の特徴は音声認識にとって重要なパラメータであり、これを回帰モデルでモデル化し、1次回帰係数（Δケプストラム）、2次回帰係数（ΔΔケプストラム）と呼ばれ広く用いられている（隣接スペクトルの差分もΔケプストラムと呼ばれており、同様に効果がある）和田ら, 2002.*3 より引用デルタケプストラムは、ケプストラムの時間変化の微分を差分ベクトルにより近似した動的特徴量である。(略) LPCケプストラムを取り除きデルタケプストラムのみを特徴量として用いることで耐雑音性が改善されると考えられる。しかしながらデルタケプストラムのみを特徴量とするには母音などの定常に近い音声の認識に不安を残す。計算方法 HTK
sotukenyou 2013/04/25
研究

音声認識

データ

音声

スペクトル

matlab

統計

方法

情報
リンク
音声認識ソフトウェアで、パーキンソン病の診断ができる研究がすすむ (2012年7月3日) - エキサイトニュース
sotukenyou 2013/03/13
音声認識

研究

アルゴリズム

開発

データ
リンク
電子情報通信学会知識ベース｜7編　音声認識と合成
知識ベースのなかから適切なテーマを選りすぐって企画されたものです．内容に関しては新規執筆も含めて，より分かりやすく再編集されています．いわば学会の知の結晶を，皆様により充実した形でお届けするものです．本シリーズを通じて，電子情報通信の最先端分野の面白さを堪能して頂ければ幸いです．企画代表　原島　博「刊行のことば」より ●感覚・知覚・認知の基礎乾敏郎　監修 →詳細はこちら ●医療情報システム黒田知宏　監修 →詳細はこちら ●画像入力とカメラ寺西信一　監修 →詳細はこちら ●宇宙太陽発電篠原真毅　監修 →詳細はこちら ●電子システムの電磁ノイズ −評価と対策− 井上浩　監修 →詳細はこちら ●マイクロ波伝送・回路デバイスの基礎橋本修　監修 →詳細はこちら ●将来ネットワーク技術 −次世代から新世代へ− 浅見徹　監修 →詳細はこちら ●ネットワークセキュリティ佐々木
sotukenyou 2013/02/02
音声認識

タグ付け待ち

すぐやる
リンク
平原研究室｜研究プロジェクト
聴覚テレプレゼンスロボット（テレヘッド）の研究この研究の目的は、ユーザがあたかもその場に居るかのように離れた場所の音場をリアルに再現する、聴覚テレプレゼンスシステムを実現することです。これまでの３次元音場を再現する技術は、頭部の周りの音響伝達関数の精密な計測と、複雑な信号処理およびそれに伴う膨大な演算量を必要とします。また、想定する受聴点は空間のある一点だけで、かつ、頭部静止状態での受聴を前提としています。一方、私たちが提案するテレロボティクス方式は、マイクロフォンを仕込んだダミーヘッドをユーザの頭部運動に追従させる方式です。このテレロボティクス方式は、脳の聴覚情報処理が自らの身体形状と運動と密接に結びついていることを利用したもので、精密な頭部伝達関数を事前に計測しなくても、複雑な信号処理をしなくても、受聴者の頭部や音源が動いても、リアルな３次元音場を再現できます。ダミー
sotukenyou 2013/01/17
計測

信号処理

聴覚

デザイン

Sound

音声認識

技術
リンク
二つの波形の合致を調べる方法は？ - OKWAVE
時間的に伸縮はしていないと仮定して話をします。二つの波形（ディジタル）を x(k),y(k) (k=0,1,2,...,N-1) とします。二つの波形の相関は R = Σ x(k)y(k) で定義されます。Σは 0 から (N-1) までを取ります。 R が大きければ二つの波形は似ているのですが、残念なことに一方の波形の振幅が大きいとき、似ていなくても R が大きくなります。そこで、類似度 S = R / (PX PY) を計算します。PX, PY は波形の二乗和の平方根です（自分自身との相関の平方根と言うこともできます）。一般に 1 ≧ S ≧ -1 で、S = 1 になるのは、二つの波形が正定数係数を除いて一致するときです。したがって、S の大きさにより類似性が判定できます。なお、以上は時間的にずれがない場合です。ずれがあり、しかも未知の場合は R = Σ x(k)y(k)
sotukenyou 2012/12/10
programming

音声認識

技術

方法
リンク
MatSigProc4b.nb
sotukenyou 2012/11/27
データ

周波数特性

周波数

関数

音声認識
リンク
母音(あ)の基本周波数、フォルマント周波数の測定 - 日本語音声の分析1　(ノートパソコンで手軽に音響測定入門)
実験をデジタルビデオに収めて、その音声データから測定分析を行いました。以下は次の加筆分までは、以前発表のものです。ランニングACF分析の様子。「あ」と2回発声しました。パワースペクトラム表示パワースペクトラムから眺めたところでは、ピーク周波数は48.4 Hz、118.4 Hz、150.7 Hz、236.9 Hz、355.3 Hz、484.5 Hz、597.5 Hz、650 Hz、716 Hz、834.4 Hz、958 Hz、1259.7 Hz、2799.3 Hz、3149.2 Hzなどです。 ACFから眺めてみると、ACFの場合は山のピークのX軸を読みます。遅れ時間です。遅れ時間がmsec単位の場合、1000をこの遅れ時間で割ると周波数成分が出ます。これはパワースペクトラムのピークと同じ意味を持ちます。このACFのグラフは音響信号を10 msecの積分時間で、ランニングステップ5
sotukenyou 2012/11/22
音声認識

周波数
リンク
Index - Miyazawa’s Pukiwiki 公開版
参考リンク † オンライン学術用語集興味深い研究や技術へのリンク本ページの著作権は日本国の法令に基づいて保護されています。特に断わりがない場合、本ページの著作権は早稲田大学人間科学学術院菊池英明研究室および宮澤幸希にあります。このウェブサイトは、早稲田大学が定める WWW用コンテンツ作成に関するガイドラインならびに Webコンテンツ確認基準を遵守します。
sotukenyou 2012/11/05
matlab

コンテンツ

speech

信号処理

音声認識

研究

技術

web
リンク
MATLAB Note/音声の分析 - Miyazawa’s Pukiwiki 公開版
音声を取り込む・再生する † WAVREAD Microsoft WAVE (".wav") サウンドファイルの読み込み filename = 'a.wav'; %読み込むファイル名を指定 [data,Fs,Bits] = wavread(filename); %dataに音声データ、Fsにはサンプリング周波数を代入 sound(data,Fs); %サンプリング周波数 Fs で再生 wavplay(data,Fs); %サンプリング周波数 Fs でWindows のオーディオ出力を使って再生 wavplay(data,Fs,'async'); %音声の再生に平行して処理を続行する disp('再生中...'); デフォルトで、以下のような音声データが用意されています。 load laughter; %笑い声 sound(y, Fs); load handel; %handelのハレルヤ
sotukenyou 2012/11/02
Sound

音声

周波数

音声認識

programming
リンク
標準化への取組み～ EPCglobal::NEC技報
NEC技報は、論文をはじめ、技術動向や導入事例などのわかりやすい記事を通して、NECグループの最新技術や、製品、システム・ソリューションを紹介しています。冊子体の販売はしておりませんので、ご了承ください。
sotukenyou 2012/11/02
音声認識

学習

技術

音響

音声

考え方

speech

開発

検索
リンク
サービス終了のお知らせ
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
sotukenyou 2012/10/31
スペクトル

音

音声認識

周波数

計測

解析

言葉

研究
リンク
音声認識 - Wikipedia
音声認識（おんせいにんしき、英: speech recognition）は声がもつ情報をコンピュータに認識させるタスクの総称である[1]。ヒトの（天然）音声認識と対比して自動音声認識（英: Automatic Speech Recognition; ASR）とも呼ばれる[2]。例として文字起こしや話者認識が挙げられる。タスク[編集] 音声認識は「音声に含まれる情報を認識するタスク」の総称であり、具体的に解かれる問題の例として以下が挙げられる： Speech-to-Text (STT): 含まれる言語情報を文字に変換するタスク。いわゆる文字起こしキーワード認識（英語版）(KWS): 事前に設定されたキーワードの出現を認識するタスク。例として「ヘイ、Siri」音声認識をサブタスクとして含むタスクには以下が挙げられる：音声操作: 音声によるアプリの操作。SST/KWSで音声情報を取り出
sotukenyou 2012/10/30
音声

音声認識

言語

パソコン

音響

資料

wikipedia
リンク
話者認識 - Wikipedia
話者認識（わしゃにんしき、英: speaker recognition）は、人間の声から個人を認識（識別や認証）するコンピュータによる処理。音声から特徴を抽出し、モデル化し、それを使って個人の声の認識を行う。誰の声であるかを識別する「話者認識」は、何を話しているかを認識する「音声認識」とは異なる。英語では話者認識を voice recognition とも呼ぶが、これを音声認識の意味で間違って使っている場合がある。話者認識は約40年前、アナログのフィルタの出力を平均化したもので一致するかどうかを調べるという形式で始まった。話者認識は、人によって異なる声の音響的特徴を利用する。そういった音響パターンは、解剖学的特徴（咽喉や口の大きさや形状）と生まれ育ってきた環境（話すスピードやスタイル）に起因する。このように後天的に学習したパターンも声に影響するため、話者認識は「行動的特徴」を用いた生体
sotukenyou 2012/09/18
音響

音声認識

音声

英語

知識

Wikipedia

話者認識

認証

データベース

人物
リンク
メル周波数ケプストラム（MFCC） - Miyazawa’s Pukiwiki 公開版
スペクトラム（spectrum）とは † 音声や地震波などの周期性のある信号は、どれだけ複雑な信号であっても、単純な波に分解できる（フーリエの定理）単純な波...単一の周波数と振幅をもつ正弦波、余弦波上記の定理に従って、ある信号の周波数成分と振幅の成分を抽出したものが、周波数スペクトラム（スペクトル）です*1。スペクトラムの求め方（MATLABによる説明）以下のような複雑な波を考えます。 MATLABで上の波を生成するには、以下のコードを実行 time = 0 : 1 / 8820 : 0.05; sinwav_1 = 1.2 * sin(2 * pi * 130 * time); coswav_1 = 0.9 * cos(2 * pi * 200 * time); sinwav_2 = 1.8 * sin(2 * pi * 260 * time); coswav_2 = 1.4
sotukenyou 2012/09/14
フーリエ変換

コード

スペクトル

FFT

音声認識

speech

sound

algorithm

research
リンク
フォルマント - Wikipedia
スペクトログラム：アメリカ英語の[i, u, ɑ]のF1とF2 フォルマント（英: formant、ホルマント）は音声の周波数スペクトルに現れる、周囲よりも強度が大きい周波数帯域である[1]。概説[編集] 時間変化する音声を一定区間で区切り周波数領域へ変換すると、周波数帯ごとに強弱がみられる。すなわちスペクトル包絡が山谷をもっている。この山に当たる周波数帯をフォルマントという。フォルマントは複数個存在する場合もあり、周波数の低い順に第一フォルマント、第二フォルマントと呼ばれ、それぞれの周波数をF1, F2と表記する[2]。また経時的に変化する場合もある。声の波形に現れるフォルマントは声道の形状から強く影響を受ける。ゆえに個体差や性差もフォルマントの違いを生む原因となる。音価が同じであれば各フォルマント周波数は近い値になる。音声との関係[編集] フォルマントは発声過程における調音で主に
sotukenyou 2012/09/13
言語

music

音声認識

音楽制作

Sound

wikipedia
リンク
Google 検索
世界中のあらゆる情報を検索するためのツールを提供しています。さまざまな検索機能を活用して、お探しの情報を見つけてください。
sotukenyou 2012/09/13
本

検索
リンク
ケプストラム分析 - 人工知能に関する断創録
Pythonで音声信号処理（2011/05/14）の第18回目。今回は、音声の特徴量としてよく使われるMFCC（Mel-Frequency Cepstrum Coefficients: メル周波数ケプストラム係数）抽出に向けた第一歩としてケプストラム分析を試しました。Wikipediaでケプストラムの定義を見てみると。ケプストラムは1963年、Bogertらの論文で定義された。ケプストラムの定義は以下の通り。口語的定義: （信号の）ケプストラムとは、（信号の）フーリエ変換の対数（位相アンラッピングを施したもの）をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。アルゴリズ
sotukenyou 2012/09/13
フーリエ変換

Wikipedia

人工知能

音声認識

情報

音声処理

python

論文
リンク
「雑音下でも認識できます」，組み込み機器向け音声認識技術が本格上陸
車の運転時にカーナビゲーション・システムのボタンを押したい，料理中にテレビの音量を上げたいなど，手が離せない状況で機器を操作したい場面は少なくない。そういったシーンに有望なのが音声認識システムである。ところが，多くの音声認識システムはマイクの性能や周囲の雑音などに影響を受けやすく使いづらい。カーナビゲーション・システムであれば，車のエンジン音，再生中の音楽，街頭からの騒音など様々な音が混ざるため，うまく認識できない。ところが組み込み機器向け音声認識システムを開発・販売する米Fonix社は，雑音下でも認識できる音声認識エンジンを提供している。同社は2005年1月より日本での販売を本格化している。アジアセールスのディレクタのJohn Shepherd氏（写真）に話を聞いた。（聞き手＝中道理） ――なぜ雑音下でも認識できるのか。ニューラルネットを使っていることが大きい。ニューラルネットは脳の
sotukenyou 2012/05/22
column

speech

音声認識

IT
リンク
サービス終了のお知らせ
サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。
sotukenyou 2012/05/22
音声認識

言葉
リンク
1