thorikawaのブックマーク - はてなブックマーク

メル周波数ケプストラム係数（MFCC） - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）の第19回目。今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients）を求めてみました。いわゆるMFCCです。 MFCCはケプストラム（2012/2/11）と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめるとプリエンファシスフィルタで波形の高域成分を強調する窓関数をかけた後にFFTして振幅スペクトルを求める振幅スペクトルにメルフィルタバンクをかけて圧縮する上記の圧縮した数値列を信号とみなして離散コサイン変換する得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

thorikawa 2015/12/11

リンク

ケプストラム分析 - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）の第18回目。今回は、音声の特徴量としてよく使われるMFCC（Mel-Frequency Cepstrum Coefficients: メル周波数ケプストラム係数）抽出に向けた第一歩としてケプストラム分析を試しました。Wikipediaでケプストラムの定義を見てみると。ケプストラムは1963年、Bogertらの論文で定義された。ケプストラムの定義は以下の通り。口語的定義: （信号の）ケプストラムとは、（信号の）フーリエ変換の対数（位相アンラッピングを施したもの）をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。アルゴリズ

thorikawa 2015/12/01

リンク

ブルックスの知能ロボット論 - 人工知能に関する断創録

ブルックスの知能ロボット論―なぜMITのロボットは前進し続けるのか? 作者: ロドニーブルックス,Rodney Allen Brooks,五味隆志出版社/メーカー: オーム社発売日: 2006/01メディア: 単行本購入: 2人クリック: 37回この商品を含むブログ (24件) を見る Rodney Brooks氏のこれまでの仕事とロボット観が余すところなく語られている一冊。 Brooks氏の考える知能は、センサー（知覚系）とモーター（駆動系）の連動から生まれるものであり、従来の認知科学で一般的であった認識系はとっぱらってしまう*1。表象なき知能（PDF）象はチェスをしない（PDF）というこれ論文なの？というほどユニークな論文を書かれている*2。この考え方をさらに発展させた内容が知の創成―身体性認知科学への招待（2005/03/15）で詳しくまとめられている。私の中ではMinsk

thorikawa 2015/06/18

リンク

線形予測分析（LPC） - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）の第20回目。以前、ケプストラム分析（2012/12/21）のところで声道の特性を意味するスペクトル包絡を求めた。今回は、線形予測分析（Linear Predictive Coding）という別の手法でスペクトル包絡を求めてみた。この方法で求めたスペクトル包絡は、LPCスペクトル包絡（LPC Spectral Envelope）と呼ばれるとのこと。線形予測分析以下の説明は、 Linear Prediction and Levinson-Durbin Algorithm (PDF) の資料を参考にしました。ここでは、詳しい導出は省いて、プログラミングできる結果だけをまとめています。線形予測分析では、過去の信号から未来の信号を以下の式で予測する。この式は、時刻nの信号の予測値は、過去k個の信号値に重み係数 a_i で重み付けして足し合

thorikawa 2015/05/15

リンク

統計的声質変換 (1) ロードマップ - 人工知能に関する断創録

Pythonで音声信号処理（2011/5/14）のつづき。 @r9y9さんの以下のチュートリアル記事をきっかけに興味をもった統計的声質変換の実験をしてみたい。統計的声質変換とはAさんの声を別のBさんの声に変換する技術のこと。統計的声質変換クッソムズすぎワロタ（チュートリアル編） - LESS IS MORE 「統計的」という名前からわかるように今回対象としているのはデータに基づいた声質変換である。簡単に手順をまとめると、変換元のAさんと変換先のBさんの音声データを用意するこの音声データを学習データとしてAさんの声をBさんの声に変換する統計モデルを学習する Aさんの任意の音声を統計モデルに入力するとBさんの声になって出てくるという感じ。コナンの声が毛利小五郎の声になって出てくるという例の蝶ネクタイ型マイクの背景技術である。あのマイクの中にはコナンの声を毛利小五郎の声に変換する何らかの

thorikawa 2015/02/13

リンク

MacにHTKをインストール - 人工知能に関する断創録

音声認識・音声合成の実験をするために隠れマルコフモデルのライブラリである Hidden Markov Toolkit (HTK) をMac OS X Mountain Lionに導入した。いろいろコンパイルエラーが出てインストールに苦労したのでまとめておく。コンパイラ macportsのgccではなく、Xcodeのgccを使用した。Mountain LionからX11がデフォルトで入らなくなったみたいなので別途インストール。 Mountain Lion (Mac OS X 10.8)にgccをインストールする X11 および OS X Mountain Lion について /usr/bin/gcc /usr/X11R6/lib /usr/X11R6/includeがあることを確認。 HTKのインストール HTKをダウンロードするにはユーザ登録が必要。登録後に HTK-3.4.1.tar.

thorikawa 2013/01/13

リンク

類似楽曲検索システムを作ろう - 人工知能に関する断創録

もう1年以上かけて音声信号処理の勉強をしてきました（Pythonで音声信号処理）。ここらで具体的なアプリケーションとして類似楽曲検索の実験をしてみたのでレポートをまとめておきます。言語はPythonです。前に類似画像検索システムを作ろう（2009/10/3） Visual Wordsを用いた類似画像検索（2010/2/27）という画像の類似検索に関するエントリを書きましたが、今回は画像ではなく音楽を対象に類似検索をやってみたいと思います！今回作る類似楽曲検索システムは、従来からよくあるアーティスト名や曲名などテキストで検索するシステムや購買履歴をもとにオススメする協調フィルタリングベースのシステムとは異なります。WAVEファイルやMP3ファイルなどの音楽波形そのものを入力とするのが特徴です。たとえば、「具体的なアーティストや曲名は知らないけれど、この曲とメロディや雰囲気が似た曲がほ

thorikawa 2012/10/14

リンク

平行移動・回転・拡大縮小 - 人工知能に関する断創録

ティーポットのような3次元オブジェクトを平行移動、回転、拡大縮小する方法です。平行移動、回転、拡大縮小は3次元オブジェクトの頂点座標を変換することで実現できるのでモデリング変換とかアフィン変換と呼ばれます。数学的には頂点の座標にある行列をかけることで実現しますが、OpenGLを使うだけなら詳細は知らなくても大丈夫です。 rotate.py translate.py scale.py サンプルスクリプト #!/usr/bin/env python #coding:utf-8 from OpenGL.GL import * from OpenGL.GLU import * from OpenGL.GLUT import * import sys angle = 0.0 def main(): glutInit(sys.argv) glutInitDisplayMode(GLUT_RGB | G

thorikawa 2012/07/01

opengl

リンク

Visual Wordsを用いた類似画像検索 - 人工知能に関する断創録

類似画像検索システムを作ろう（2009/10/3） 3日で作る高速特定物体認識システム（2009/10/18）に続くOpenCV プロジェクト第三弾です。今回は、上の二つをふまえてカラーヒストグラムではなく、局所特徴量（SIFTやSURF）を用いた類似画像検索を試してみます。局所特徴量はグレースケール画像から抽出するため、カラーヒストグラムと違って色は見ていません。画像の模様（テクスチャ）で類似性を判定します。実験環境は、Windows 7、MinGW C++コンパイラ、OpenCV2.0、Python 2.5です。EclipseでMinGWを使う方法はEclipseでOpenCV（2009/10/16）を参照してください。Visual C++にはないディレクトリスキャン関数を一部使っているのでVisual C++を使う場合は、少しだけ修正が必要です。 Bag-of-Visual Wor

thorikawa 2010/08/10

リンク

3日で作る高速特定物体認識システム (1) 物体認識とは - 人工知能に関する断創録

情報処理学会の学会誌『情報処理』の2008年9月号（Vol.49, No.9）に「3日で作る高速特定物体認識システム」という特集記事があります。OpenCVを用いた面白そうなプロジェクトなのでレポートにまとめてみようと思います。3日でできるかはわからないけど。残念ながらこの記事はPDFを無料でダウンロードすることができません（CiNiiでオープンアクセス可能になったみたいです）。なので会員以外で元記事が読みたい人は図書館でコピーする必要があるかも・・・また、2009年9月号の人工知能学会誌にも物体認識の解説「セマンティックギャップを超えて―画像・映像の内容理解に向けてー」があります。こちらも非常に参考になりますが同様にPDFが手に入りません・・・。他にもいくつかわかりやすい総説論文へのリンクを参考文献にあげておきます。物体認識とは物体認識（object recognition）は、画

thorikawa 2009/11/28

リンク

類似画像検索システムを作ろう - 人工知能に関する断創録

C++版のOpenCVを使ってカラーヒストグラムを用いた類似画像検索を実験してみました。バッチ処理などのスクリプトはPythonを使ってますが、PerlでもRubyでも似たような感じでできます。指定した画像と類似した画像を検索するシステムは類似画像検索システムと言います。GoogleやYahoo!のイメージ検索は、クエリにキーワードを入れてキーワードに関連した画像を検索しますが、類似画像検索ではクエリに画像を与えるのが特徴的です。この分野は、Content-Based Image Retrieval (CBIR)と呼ばれており、最新のサーベイ論文（Datta,2008）を読むと1990年代前半とけっこう昔から研究されてます。最新の手法では、色、形状、テクスチャ、特徴点などさまざまな特徴量を用いて類似度を判定するそうですが、今回は、もっとも簡単な「色」を用いた類似画像検索を実験してみます

thorikawa 2009/10/03

リンク

はてなブックマーク

タグ

ブックマーク / aidiary.hatenablog.com (11)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス