タグ

*programmingとMFCCに関するharigelのブックマーク (6)

  • 類似楽曲検索システムを作ろう - 人工知能に関する断創録

    もう1年以上かけて音声信号処理の勉強をしてきました(Pythonで音声信号処理)。ここらで具体的なアプリケーションとして類似楽曲検索の実験をしてみたのでレポートをまとめておきます。言語はPythonです。 前に 類似画像検索システムを作ろう(2009/10/3) Visual Wordsを用いた類似画像検索(2010/2/27) という画像の類似検索に関するエントリを書きましたが、今回は画像ではなく音楽を対象に類似検索をやってみたいと思います! 今回作る類似楽曲検索システムは、従来からよくあるアーティスト名や曲名などテキストで検索するシステムや購買履歴をもとにオススメする協調フィルタリングベースのシステムとは異なります。WAVEファイルやMP3ファイルなどの音楽波形そのものを入力とするのが特徴です。たとえば、「具体的なアーティストや曲名は知らないけれど、この曲とメロディや雰囲気が似た曲がほ

    類似楽曲検索システムを作ろう - 人工知能に関する断創録
  • 信号の類似度の測定 - MATLAB & Simulink Example - MathWorks 日本

  • メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14)の第19回目。 今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients)を求めてみました。いわゆるMFCCです。 MFCCはケプストラム(2012/2/11)と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめると プリエンファシスフィルタで波形の高域成分を強調する 窓関数をかけた後にFFTして振幅スペクトルを求める 振幅スペクトルにメルフィルタバンクをかけて圧縮する 上記の圧縮した数値列を信号とみなして離散コサイン変換する 得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

    メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録
  • https://sunpro.io/c89/pub/hiromu/ch03

  • SPTKの使い方 (6) MFCCの抽出 - 人工知能に関する断創録

    SPTKの使い方 (5)(2012/8/1)の続き。 今回は、音声認識の特徴量としてよく使われるメル周波数ケプストラム係数 MFCC(2012/2/25)をSPTKで抽出してみました。使うコマンドは、mfccです*1。 x2x +sf < data.short| frame -l 640 -p 160 | \ mfcc -l 640 -f 16 -m 12 -n 20 -a 0.97 > data.mfcパラメータの意味は、 -l 640 フレーム長は640サンプル -f 16 サンプリング周波数は16kHz -m 12 MFCCの次元は12次元 -n 20 メルフィルタバンクのチャンネル数は20 -a 0.97 プリエンファシス係数は0.97 です。まあ、-lと-fと-m以外はデフォルトでいいかな?mfccコマンドには、-c 22(リフタリング係数)というオプションもあったのですが、これ

    SPTKの使い方 (6) MFCCの抽出 - 人工知能に関する断創録
  • Q 様々な音響特徴量 それぞれの使い方や意味を教えて下さい

    様々な音響特徴量 それぞれの使い方や意味を教えて下さい Q. 東北大学 大学院 工学研究科 博士後期課程2年 千葉 祐弥 音響学入門ペディア マスター タイトルの書式設定 特徴量って何に使うもの? より無駄が少なく、データの質をあらわした表現が欲しい! ⇒ データからなるべく良い特徴量を抽出する必要がある  収録条件、個人差、データ差などの違いが大きくて質的な部分がわかりにくい  データ量や計算量が多くて取り扱いにくい 生のデータそのものを利用するのは無理がある 2 • 統計的分析 • 機械学習、パターン認識 • 音声認識、音声インターフェースの作成 • 楽曲のジャンル推定、楽曲検索、推薦等への応用 など • 人間が音を聞く仕組みを解明する(方向、高さ、大きさ、音色・・・の知覚) • データの符号化、圧縮への応用 など マスター タイトルの書式設定 特徴量の選び方 音素の判別に有効

  • 1