タグ

ブックマーク / aidiary.hatenablog.com (4)

  • メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14)の第19回目。 今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients)を求めてみました。いわゆるMFCCです。 MFCCはケプストラム(2012/2/11)と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめると プリエンファシスフィルタで波形の高域成分を強調する 窓関数をかけた後にFFTして振幅スペクトルを求める 振幅スペクトルにメルフィルタバンクをかけて圧縮する 上記の圧縮した数値列を信号とみなして離散コサイン変換する 得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

    メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録
    masatoi
    masatoi 2016/10/19
    メルフィルタバンクはできそう。
  • Pythonでサウンドスペクトログラム - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14) 今回は、さまざまな音声のスペクトログラム(spectrogram)を求めてみたいと思います。科学捜査班が声紋分析で使っているやつですね。こういうの。 名前がスペクトログラムってくらいなのでフーリエ変換で求めるスペクトル(spectrum)と関係があります。スペクトルは、離散フーリエ変換(2011/6/11)でも紹介しましたが、音声波形の短時間(512サンプルなど)の波形データの中にどのような周波数成分がどれだけ含まれるかを表した図です。スペクトルは、横軸が周波数で縦軸が強度(振幅の2乗)となっています。スペクトルのグラフには、時間が入ってこないのが特徴的。時間はFFTをかける波形の位置で決まるので時間はFFTする前にあらかじめ固定されています。ちなみに、元の波形は横軸が時間なので時間領域、スペクトルは横軸が周波数なので周波数領域といいます

    Pythonでサウンドスペクトログラム - 人工知能に関する断創録
    masatoi
    masatoi 2016/09/06
  • SPTKの使い方 (7) メルケプストラム分析合成 - 人工知能に関する断創録

    SPTKの使い方 (6)(2012/8/5)の続き。 今回は、SPTK(2012/7/1)を使って音声合成の実験をしてみました。ここで言う音声合成は、テキストを音声に変換するTTS(Text-to-Speech)ではなく、分析合成と呼ばれるものです。 分析合成では、人間の音声からパラメータを抽出し、ソース・フィルタモデル(Wikipedia)を用いて音声を再合成します。いわゆるヴォコーダーという技術です。ヴォコーダー(Wikipedia)を調べると 来の意味は通信用の音声圧縮技術で、携帯電話などの多くの機器で使用されている。音声の波形を直接送るのではなくパラメータ化して送り、受信側ではそれらのパラメータから元の音声を合成する。 ヴォコーダー(Wikipedia) とあります。ん?ということは、携帯電話で聞いているのは実際の肉声ではなく、パラメータから再合成した合成音声なのですかね?これは

    SPTKの使い方 (7) メルケプストラム分析合成 - 人工知能に関する断創録
    masatoi
    masatoi 2016/01/20
    音声合成するときはいったん音声を励起信号とスペクトル信号に分解して、それがHMMとかのターゲットになる。予測されたそれらを再合成することで音声が得られるので、単純に分析合成したときのクオリティが上限になる
  • 3日で作る高速特定物体認識システム (1) 物体認識とは - 人工知能に関する断創録

    情報処理学会の学会誌『情報処理』の2008年9月号(Vol.49, No.9)に「3日で作る高速特定物体認識システム」という特集記事があります。OpenCVを用いた面白そうなプロジェクトなのでレポートにまとめてみようと思います。3日でできるかはわからないけど。 残念ながらこの記事はPDFを無料でダウンロードすることができません(CiNiiでオープンアクセス可能になったみたいです)。なので会員以外で元記事が読みたい人は図書館でコピーする必要があるかも・・・また、2009年9月号の人工知能学会誌にも物体認識の解説「セマンティックギャップを超えて―画像・映像の内容理解に向けてー」があります。こちらも非常に参考になりますが同様にPDFが手に入りません・・・。他にもいくつかわかりやすい総説論文へのリンクを参考文献にあげておきます。 物体認識とは 物体認識(object recognition)は、画

    3日で作る高速特定物体認識システム (1) 物体認識とは - 人工知能に関する断創録
    masatoi
    masatoi 2009/12/18
    画像認識に応用できる
  • 1