ブックマーク / aidiary.hatenablog.com (2)

  • SPTKの使い方 (3) ピッチ抽出 - 人工知能に関する断創録

    SPTKの使い方 (2)(2012/7/4)の続き。 今回は、SPTKマニュアルの2章のピッチ抽出(pitch extraction)を試してみます。ピッチとは声の高さのことで、基周波数やF0とも呼ばれます*1。ピッチは、人間の発声におけるアクセント、イントネーション、感情表出などとも密接に関係しているため音声合成において非常に重要なパラメータになっています。 というわけでSPTKのピッチ抽出コマンドpitchを使って、音声からピッチを抽出してみました。 データの変換 使ったデータは、Galatea Talkに付属していたATR 503文の音声データです。物は有料のようですが、同じテキストで再度録音し直して無償公開しているデータみたい。a01.adからj53.adまで503個のrawファイルが含まれています。 さっそく何て言っているのか確かめるためSPTKの使い方 (1)(2012/7

    SPTKの使い方 (3) ピッチ抽出 - 人工知能に関する断創録
  • 類似画像検索システムを作ろう - 人工知能に関する断創録

    C++版のOpenCVを使ってカラーヒストグラムを用いた類似画像検索を実験してみました。バッチ処理などのスクリプトはPythonを使ってますが、PerlでもRubyでも似たような感じでできます。 指定した画像と類似した画像を検索するシステムは類似画像検索システムと言います。GoogleYahoo!のイメージ検索は、クエリにキーワードを入れてキーワードに関連した画像を検索しますが、類似画像検索ではクエリに画像を与えるのが特徴的です。この分野は、Content-Based Image Retrieval (CBIR)と呼ばれており、最新のサーベイ論文(Datta,2008)を読むと1990年代前半とけっこう昔から研究されてます。 最新の手法では、色、形状、テクスチャ、特徴点などさまざまな特徴量を用いて類似度を判定するそうですが、今回は、もっとも簡単な「色」を用いた類似画像検索を実験してみます

    類似画像検索システムを作ろう - 人工知能に関する断創録
  • 1