タグ

音声認識に関するlabgaのブックマーク (11)

  • 時刻tじゃない音声認識 - SuzukiMasayuki@Hatena::Diary

    去年の12月,古井先生が「なにかが足りない音声認識研究」というタイトルで発表をなさった. 現在までの音声認識研究を振り返った上で,「なにかが足りない,けどそれがなにかは知らない」という内容. かなり刺激的なお話だったので,各地からいろんな反響(例えばhttp://d.hatena.ne.jp/tihara/20091226)があった. 「なにが足りないのか?」にはいろんな答えがあると思う.答えは一つだけではないと思う. その上で,僕は 時刻tじゃない音声認識 が一つの答えになるのかなあ,と考えている. 以下,これまで行われてきた変化に着目した音声認識に関する研究を見ながら,自分なりの考えを書きたいと思う. デルタ特徴量関係 デルタ特徴量は,古井先生が提案された,今やデファクトスタンダードな特徴量. デルタ特徴量は,時系列の特徴量に対する回帰係数のことで, 具体的には時刻tのフレームの前後N

    時刻tじゃない音声認識 - SuzukiMasayuki@Hatena::Diary
  • Warped Linear Predictive Coding - Wikipedia

    Warped Linear Predictive Coding (WLPC、ワープLPC) 、あるいはWarped Linear Prediction(WLP、ワープLP)は線形予測符号の一種で、通常の線形予測での周波数特性をバーク尺度やメル尺度のような人間の聴感特性に合わせて変形させることに特徴がある。WLPC は、周波数スペクトルを人間の聴覚に合わせた分解能でモデル化することができ、より少ないパラメータで音の情報を表現することができるため、音声認識や広帯域音声符号化などに向いている。 概要[編集] 線形予測符号方式では、人間の声を声道の周波数選択特性と音源である声帯などの音の特性でモデル化し、声道に相当する合成フィルターのパラメータとして線形予測係数を用いる。 線形予測では一定の時間遅延ごとの信号から現在の信号を予測する。Warped Linear Predictive Coding(

  • MATLAB Note/音声の分析 - Miyazawa’s Pukiwiki 公開版

    音声を取り込む・再生する † WAVREAD Microsoft WAVE (".wav") サウンドファイルの読み込み filename = 'a.wav'; %読み込むファイル名を指定 [data,Fs,Bits] = wavread(filename); %dataに音声データ、Fsにはサンプリング周波数を代入 sound(data,Fs); %サンプリング周波数 Fs で再生 wavplay(data,Fs); %サンプリング周波数 Fs でWindows のオーディオ出力を使って再生 wavplay(data,Fs,'async'); %音声の再生に平行して処理を続行する disp('再生中...'); デフォルトで、以下のような音声データが用意されています。 load laughter; %笑い声 sound(y, Fs); load handel; %handelのハレルヤ

  • HARK をインストールする - Qiita

    HARK とは何か HARK とは、ロボット聴覚と呼ばれる、たくさんのマイク(マイクアレイ) を使って * 音の方向を当てたり (音源定位)、 * 混ざった音から特定の方向の音を取り出したり (音源分離)、 * 音声を文字列に変換したり (音声認識)、 する技術を使えるソフトウェア。 URL はここ: www.hark.jp HARK では1機能が1ノードとして表現され、LabVIEW みたいな感じでグラフィカルに ロボット聴覚の処理 (ネットワークと呼ばれる) を実装できる。 どうやってインストールするのか ここでは Windows / Ubuntu (apt-get) という簡単な方法 Windows ここからインストーラを落としてインストール http://www.hark.jp/wiki.cgi?page=Softwares#p9 Linux (Ubuntu) リポジトリと公開鍵登

    HARK をインストールする - Qiita
  • サービス終了のお知らせ

    サービス終了のお知らせ いつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。 お客様がアクセスされたサービスは日までにサービスを終了いたしました。 今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

  • メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14)の第19回目。 今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients)を求めてみました。いわゆるMFCCです。 MFCCはケプストラム(2012/2/11)と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめると プリエンファシスフィルタで波形の高域成分を強調する 窓関数をかけた後にFFTして振幅スペクトルを求める 振幅スペクトルにメルフィルタバンクをかけて圧縮する 上記の圧縮した数値列を信号とみなして離散コサイン変換する 得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

    メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録
  • PyAudio使ってみた

    PyAudioを使ってオーディオ入力を取り込むプログラムをゴリゴリいじっている。取り敢えず マイクから入力→数値データに変換→matplotlibでグラフ化してみました というお話。 PyAudioのサイトにサンプルとして載っている、マイク入力をスピーカーからそのまま出力するプログラムを改造した。 from pylab import * import pyaudio import sys chunk = 1024 FORMAT = pyaudio.paInt16 CHANNELS = 1 RATE = 44100 RECORD_SECONDS = 5 p = pyaudio.PyAudio() stream = p.open(format = FORMAT, channels = CHANNELS, rate = RATE, input = True, output = True, fra

    PyAudio使ってみた
  • Pythonによるリアルタイムグラフ描画とマイクからの読み取り - Risky Dune

    なぜかマイクからの読み取りとリアルタイムグラフ描画を混ぜる. マイクからの読み取り ライブラリとしてpyaudioを使用した. aptで入る. 以下のプログラムはほとんど公式のサンプル通りだけど, 2秒マイクから音を受け取って, グラフに描画する. import pyaudio import sys import pylab import numpy chunk = 1024 FORMAT = pyaudio.paInt16 CHANNELS = 1 RATE = 44100 RECORD_SECONDS = 2 WAVE_OUTPUT_FILENAME = "output.wav" p = pyaudio.PyAudio() stream = p.open(format = FORMAT, channels = CHANNELS, rate = RATE, input = True, f

    Pythonによるリアルタイムグラフ描画とマイクからの読み取り - Risky Dune
  • Pythonで音声信号処理 - 人工知能に関する断創録

    今年の目標(2011/1/1)の1つに音声認識技術の深耕というのを立ててます。いきなり音声認識をやるのは知識不足でかなり大変だということが分かったので、まずは音声のいろんな性質や信号処理の技術を一つ一つ試しながら習得していくことにしました。 音声信号処理ではよくMatlabが使われるようなのですが、 Matlabは高くて買えない(フリーのOctaveってのもあります) すでに使っているPython、Rと文法が似ていて混乱する というわけでMatlabはやめてPythonを使います。SciPyにフーリエ変換の機能があったのでたぶん同じようなことができるでしょう。Pythonのいろんな音声関係のライブラリなんかも紹介できればと思います。 当面の目標は、簡単な類似楽曲検索システムを作ることです。その後は、いろんなツール(HTKなど)を駆使して音声認識システムを作りたいと思ってます。 このページは

    Pythonで音声信号処理 - 人工知能に関する断創録
  • ルールベースjuliusの誤認識対策にSVMを利用してみよう - お前の血は何色だ!! 4

    前回やったことの続きです。 ルールベースの音声認識をjuliusでやったときに過剰にマッチしまくる問題への対策です。 前回、juliusのクセを観察し、独自のスコアリングをやりました。 多少は誤認識に強くなったのですが、それでも人と人が会話や議論するような短文のやり取りにさらされると、やっぱり誤認識してしまいます。 SVM もう、これは単純なパラメータの閾値では無理です。 ある閾値がそれを超えたら捨てるなどの単純な話ではないのです。 複数のパラメータが複雑に絡み合った世界です。 それをニンゲンの手で観察し、推論していては時間が膨大にかかってしまいます。 人間でやると大変なことは、機械にやらせましょう。 と、いうわけで、機械学習です。 今回は、機会学習の中からSVMを利用します。 SVMは精度もさることながら、学習速度はやや問題があるものの、判別は高速ですし、何よりライブラリが比較的揃ってお

    ルールベースjuliusの誤認識対策にSVMを利用してみよう - お前の血は何色だ!! 4
  • Javaベースの音声認識エンジン「Sphinx-4 1.0」ベータ2が公開 | OSDN Magazine

    米Sun Microsystemsは2月8日、カーネギー・メロン大学のSphinxグループなどと共同で開発を進めているJavaベースの音声認識エンジン「Sphinx-4 1.0」ベータ2をリリースしたことを発表した。プロジェクトのWebサイトよりダウンロードできる。 Sphinx-4は、カーネギー・メロン大学が米国防高等研究計画局(DARPA)の支援を受けて開発した音声認識技術プロジェクトを土台としたもの。現在、Sun、三菱電機の米国研究所Mitsubishi Electric Research Laboratories(MERL)、米Hewlett-Packard(HP)と共同で開発が進められている。 Sphinx-4はJavaで作成されており、BSD Lincenseの下で公開されている。オープンソースのツールやリソースを集めたもので、柔軟性を特徴とする。開発者はこれを利用して音声認識

    Javaベースの音声認識エンジン「Sphinx-4 1.0」ベータ2が公開 | OSDN Magazine
  • 1