[B! 音声認識] labgaのブックマーク

時刻tじゃない音声認識 - SuzukiMasayuki@Hatena::Diary

去年の12月，古井先生が「なにかが足りない音声認識研究」というタイトルで発表をなさった．現在までの音声認識研究を振り返った上で，「なにかが足りない，けどそれがなにかは知らない」という内容．かなり刺激的なお話だったので，各地からいろんな反響（例えばhttp://d.hatena.ne.jp/tihara/20091226）があった．「なにが足りないのか？」にはいろんな答えがあると思う．答えは一つだけではないと思う．その上で，僕は時刻tじゃない音声認識が一つの答えになるのかなあ，と考えている．以下，これまで行われてきた変化に着目した音声認識に関する研究を見ながら，自分なりの考えを書きたいと思う．デルタ特徴量関係デルタ特徴量は，古井先生が提案された，今やデファクトスタンダードな特徴量．デルタ特徴量は，時系列の特徴量に対する回帰係数のことで，具体的には時刻tのフレームの前後N

labga 2015/09/09

音声認識

リンク

Warped Linear Predictive Coding - Wikipedia

Warped Linear Predictive Coding (WLPC、ワープLPC) 、あるいはWarped Linear Prediction（WLP、ワープLP）は線形予測符号の一種で、通常の線形予測での周波数特性をバーク尺度やメル尺度のような人間の聴感特性に合わせて変形させることに特徴がある。WLPC は、周波数スペクトルを人間の聴覚に合わせた分解能でモデル化することができ、より少ないパラメータで音の情報を表現することができるため、音声認識や広帯域音声符号化などに向いている。概要[編集] 線形予測符号方式では、人間の声を声道の周波数選択特性と音源である声帯などの音の特性でモデル化し、声道に相当する合成フィルターのパラメータとして線形予測係数を用いる。線形予測では一定の時間遅延ごとの信号から現在の信号を予測する。Warped Linear Predictive Coding（

labga 2015/09/06

音声認識

リンク

MATLAB Note/音声の分析 - Miyazawa’s Pukiwiki 公開版

音声を取り込む・再生する † WAVREAD Microsoft WAVE (".wav") サウンドファイルの読み込み filename = 'a.wav'; %読み込むファイル名を指定 [data,Fs,Bits] = wavread(filename); %dataに音声データ、Fsにはサンプリング周波数を代入 sound(data,Fs); %サンプリング周波数 Fs で再生 wavplay(data,Fs); %サンプリング周波数 Fs でWindows のオーディオ出力を使って再生 wavplay(data,Fs,'async'); %音声の再生に平行して処理を続行する disp('再生中...'); デフォルトで、以下のような音声データが用意されています。 load laughter; %笑い声 sound(y, Fs); load handel; %handelのハレルヤ

labga 2015/01/28

リンク

HARK をインストールする - Qiita

HARK とは何か HARK とは、ロボット聴覚と呼ばれる、たくさんのマイク(マイクアレイ) を使って * 音の方向を当てたり (音源定位)、 * 混ざった音から特定の方向の音を取り出したり (音源分離)、 * 音声を文字列に変換したり (音声認識)、する技術を使えるソフトウェア。 URL はここ: www.hark.jp HARK では1機能が1ノードとして表現され、LabVIEW みたいな感じでグラフィカルにロボット聴覚の処理 (ネットワークと呼ばれる) を実装できる。どうやってインストールするのかここでは Windows / Ubuntu (apt-get) という簡単な方法 Windows ここからインストーラを落としてインストール http://www.hark.jp/wiki.cgi?page=Softwares#p9 Linux (Ubuntu) リポジトリと公開鍵登

labga 2014/10/26

リンク

サービス終了のお知らせ

サービス終了のお知らせいつもYahoo! JAPANのサービスをご利用いただき誠にありがとうございます。お客様がアクセスされたサービスは本日までにサービスを終了いたしました。今後ともYahoo! JAPANのサービスをご愛顧くださいますよう、よろしくお願いいたします。

labga 2014/04/20

リンク

メル周波数ケプストラム係数（MFCC） - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）の第19回目。今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients）を求めてみました。いわゆるMFCCです。 MFCCはケプストラム（2012/2/11）と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめるとプリエンファシスフィルタで波形の高域成分を強調する窓関数をかけた後にFFTして振幅スペクトルを求める振幅スペクトルにメルフィルタバンクをかけて圧縮する上記の圧縮した数値列を信号とみなして離散コサイン変換する得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

labga 2014/04/16

リンク

PyAudio使ってみた

PyAudioを使ってオーディオ入力を取り込むプログラムをゴリゴリいじっている。取り敢えずマイクから入力→数値データに変換→matplotlibでグラフ化してみましたというお話。 PyAudioのサイトにサンプルとして載っている、マイク入力をスピーカーからそのまま出力するプログラムを改造した。 from pylab import * import pyaudio import sys chunk = 1024 FORMAT = pyaudio.paInt16 CHANNELS = 1 RATE = 44100 RECORD_SECONDS = 5 p = pyaudio.PyAudio() stream = p.open(format = FORMAT, channels = CHANNELS, rate = RATE, input = True, output = True, fra

labga 2013/03/30

リンク

Pythonによるリアルタイムグラフ描画とマイクからの読み取り - Risky Dune

なぜかマイクからの読み取りとリアルタイムグラフ描画を混ぜる. マイクからの読み取りライブラリとしてpyaudioを使用した. aptで入る. 以下のプログラムはほとんど公式のサンプル通りだけど, 2秒マイクから音を受け取って, グラフに描画する. import pyaudio import sys import pylab import numpy chunk = 1024 FORMAT = pyaudio.paInt16 CHANNELS = 1 RATE = 44100 RECORD_SECONDS = 2 WAVE_OUTPUT_FILENAME = "output.wav" p = pyaudio.PyAudio() stream = p.open(format = FORMAT, channels = CHANNELS, rate = RATE, input = True, f

labga 2013/03/30

リンク

Pythonで音声信号処理 - 人工知能に関する断創録

今年の目標（2011/1/1）の1つに音声認識技術の深耕というのを立ててます。いきなり音声認識をやるのは知識不足でかなり大変だということが分かったので、まずは音声のいろんな性質や信号処理の技術を一つ一つ試しながら習得していくことにしました。音声信号処理ではよくMatlabが使われるようなのですが、 Matlabは高くて買えない（フリーのOctaveってのもあります）すでに使っているPython、Rと文法が似ていて混乱するというわけでMatlabはやめてPythonを使います。SciPyにフーリエ変換の機能があったのでたぶん同じようなことができるでしょう。Pythonのいろんな音声関係のライブラリなんかも紹介できればと思います。当面の目標は、簡単な類似楽曲検索システムを作ることです。その後は、いろんなツール（HTKなど）を駆使して音声認識システムを作りたいと思ってます。このページは

labga 2013/03/30

リンク

ルールベースjuliusの誤認識対策にSVMを利用してみよう - お前の血は何色だ!! 4

前回やったことの続きです。ルールベースの音声認識をjuliusでやったときに過剰にマッチしまくる問題への対策です。前回、juliusのクセを観察し、独自のスコアリングをやりました。多少は誤認識に強くなったのですが、それでも人と人が会話や議論するような短文のやり取りにさらされると、やっぱり誤認識してしまいます。 SVM もう、これは単純なパラメータの閾値では無理です。ある閾値がそれを超えたら捨てるなどの単純な話ではないのです。複数のパラメータが複雑に絡み合った世界です。それをニンゲンの手で観察し、推論していては時間が膨大にかかってしまいます。人間でやると大変なことは、機械にやらせましょう。と、いうわけで、機械学習です。今回は、機会学習の中からSVMを利用します。 SVMは精度もさることながら、学習速度はやや問題があるものの、判別は高速ですし、何よりライブラリが比較的揃ってお

labga 2013/03/15

リンク

Javaベースの音声認識エンジン「Sphinx-4 1.0」ベータ2が公開 | OSDN Magazine

米Sun Microsystemsは2月8日、カーネギー・メロン大学のSphinxグループなどと共同で開発を進めているJavaベースの音声認識エンジン「Sphinx-4 1.0」ベータ2をリリースしたことを発表した。プロジェクトのWebサイトよりダウンロードできる。 Sphinx-4は、カーネギー・メロン大学が米国防高等研究計画局（DARPA）の支援を受けて開発した音声認識技術プロジェクトを土台としたもの。現在、Sun、三菱電機の米国研究所Mitsubishi Electric Research Laboratories（MERL）、米Hewlett-Packard（HP）と共同で開発が進められている。 Sphinx-4はJavaで作成されており、BSD Lincenseの下で公開されている。オープンソースのツールやリソースを集めたもので、柔軟性を特徴とする。開発者はこれを利用して音声認識

labga 2013/03/14

音声認識

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

音声認識に関するlabgaのブックマーク (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス