mo_sanのブックマーク - はてなブックマーク

Pythonで音声信号処理 - 人工知能に関する断創録

今年の目標（2011/1/1）の1つに音声認識技術の深耕というのを立ててます。いきなり音声認識をやるのは知識不足でかなり大変だということが分かったので、まずは音声のいろんな性質や信号処理の技術を一つ一つ試しながら習得していくことにしました。音声信号処理ではよくMatlabが使われるようなのですが、 Matlabは高くて買えない（フリーのOctaveってのもあります）すでに使っているPython、Rと文法が似ていて混乱するというわけでMatlabはやめてPythonを使います。SciPyにフーリエ変換の機能があったのでたぶん同じようなことができるでしょう。Pythonのいろんな音声関係のライブラリなんかも紹介できればと思います。当面の目標は、簡単な類似楽曲検索システムを作ることです。その後は、いろんなツール（HTKなど）を駆使して音声認識システムを作りたいと思ってます。このページは

mo_san 2017/01/11

リンク

統計的声質変換 (1) ロードマップ - 人工知能に関する断創録

Pythonで音声信号処理（2011/5/14）のつづき。 @r9y9さんの以下のチュートリアル記事をきっかけに興味をもった統計的声質変換の実験をしてみたい。統計的声質変換とはAさんの声を別のBさんの声に変換する技術のこと。統計的声質変換クッソムズすぎワロタ（チュートリアル編） - LESS IS MORE 「統計的」という名前からわかるように今回対象としているのはデータに基づいた声質変換である。簡単に手順をまとめると、変換元のAさんと変換先のBさんの音声データを用意するこの音声データを学習データとしてAさんの声をBさんの声に変換する統計モデルを学習する Aさんの任意の音声を統計モデルに入力するとBさんの声になって出てくるという感じ。コナンの声が毛利小五郎の声になって出てくるという例の蝶ネクタイ型マイクの背景技術である。あのマイクの中にはコナンの声を毛利小五郎の声に変換する何らかの

mo_san 2016/12/28

リンク

類似楽曲検索システムを作ろう - 人工知能に関する断創録

もう1年以上かけて音声信号処理の勉強をしてきました（Pythonで音声信号処理）。ここらで具体的なアプリケーションとして類似楽曲検索の実験をしてみたのでレポートをまとめておきます。言語はPythonです。前に類似画像検索システムを作ろう（2009/10/3） Visual Wordsを用いた類似画像検索（2010/2/27）という画像の類似検索に関するエントリを書きましたが、今回は画像ではなく音楽を対象に類似検索をやってみたいと思います！今回作る類似楽曲検索システムは、従来からよくあるアーティスト名や曲名などテキストで検索するシステムや購買履歴をもとにオススメする協調フィルタリングベースのシステムとは異なります。WAVEファイルやMP3ファイルなどの音楽波形そのものを入力とするのが特徴です。たとえば、「具体的なアーティストや曲名は知らないけれど、この曲とメロディや雰囲気が似た曲がほ

mo_san 2012/10/15

リンク

はてなブックマーク

タグ

ブックマーク / aidiary.hatenablog.com (3)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス