hirokistのブックマーク - はてなブックマーク

Deep Learning リンク集 - 人工知能に関する断創録

乗るしかないこのビッグウェーブに Deep Learning（深層学習）に関連するまとめページとして使用する予定です。Deep Learningに関する記事・スライド・論文・動画・書籍へのリンクをまとめています。最新の研究動向は全然把握できていないので今後研究を進めるなかで記録していきたいと思います。読んだ論文の概要も簡単にまとめていく予定です。本ブログでは、当面の間、Theanoを使って各種Deep Learningアルゴリズムを実装していきたいと思います。関連ニュースなどはTwitterでも流しているので興味があったらフォローしてください。すべてに目が通せず更新が追いついていません。私のはてなブックマークで[Deep Learning]というタグを付けて登録しています。まったく整理できていませんがご参考まで。 Theano編 TheanoをWindowsにインストール（2015/1

hirokist 2015/04/29

deep learning

リンク

SPTKの使い方 (7) メルケプストラム分析合成 - 人工知能に関する断創録

SPTKの使い方 (6)（2012/8/5）の続き。今回は、SPTK（2012/7/1）を使って音声合成の実験をしてみました。ここで言う音声合成は、テキストを音声に変換するTTS（Text-to-Speech）ではなく、分析合成と呼ばれるものです。分析合成では、人間の音声からパラメータを抽出し、ソース・フィルタモデル（Wikipedia）を用いて音声を再合成します。いわゆるヴォコーダーという技術です。ヴォコーダー（Wikipedia）を調べると本来の意味は通信用の音声圧縮技術で、携帯電話などの多くの機器で使用されている。音声の波形を直接送るのではなくパラメータ化して送り、受信側ではそれらのパラメータから元の音声を合成する。ヴォコーダー（Wikipedia）とあります。ん？ということは、携帯電話で聞いているのは実際の肉声ではなく、パラメータから再合成した合成音声なのですかね？これは

hirokist 2013/02/08

音声認識

リンク

MacにHTKをインストール - 人工知能に関する断創録

音声認識・音声合成の実験をするために隠れマルコフモデルのライブラリである Hidden Markov Toolkit (HTK) をMac OS X Mountain Lionに導入した。いろいろコンパイルエラーが出てインストールに苦労したのでまとめておく。コンパイラ macportsのgccではなく、Xcodeのgccを使用した。Mountain LionからX11がデフォルトで入らなくなったみたいなので別途インストール。 Mountain Lion (Mac OS X 10.8)にgccをインストールする X11 および OS X Mountain Lion について /usr/bin/gcc /usr/X11R6/lib /usr/X11R6/includeがあることを確認。 HTKのインストール HTKをダウンロードするにはユーザ登録が必要。登録後に HTK-3.4.1.tar.

hirokist 2013/01/22

Mac

リンク

ライフゲームの世界 - 人工知能に関する断創録

ニコニコ動画の複雑系コミュニティの発起人のはむくんがライフゲームの世界というとても面白い動画を投稿されています。Twitterでは何度かツイートしてたけど完結したのでブログでも紹介させていただきます。ライフゲームの世界1 John Horton Conwayが提案したライフゲーム（Conway's Game of Life）の基本的なルールを解説しています。また頻繁に現れる4種の物体（ブロック、蜂の巣、ブリンカー、グライダー）を紹介しています。最後の作品紹介は、P416 60P5H2V0 gunというすさまじいパターンが出てきます。グライダー銃から発射したグライダーたちが滑走路を通ります。グライダーの集合先では、発射された複数のグライダーが合体して宇宙船が組み立てられます。ライフゲームの世界2 いろんな振動子（パルサー、タンブラー、銀河）が鑑賞できます。作品紹介では大量の振動子が勢揃い

hirokist 2013/01/13

リンク

パターン認識と機械学習（PRML）まとめ - 人工知能に関する断創録

2010年は、パターン認識と機械学習（PRML）を読破して、機械学習の基礎理論とさまざまなアルゴリズムを身につけるという目標（2010/1/1）をたてています。もうすでに2010年も半分以上過ぎてしまいましたが、ここらでまとめたページを作っておこうと思います。ただ漫然と読んでると理解できてるかいまいち不安なので、Python（2006/12/10）というプログラミング言語で例を実装しながら読み進めています。Pythonの数値計算ライブラリScipy、Numpyとグラフ描画ライブラリのmatplotlibを主に使ってコーディングしています。実用的なコードでないかもしれませんが、ご参考まで。 PRMLのPython実装 PRML読書中（2010/3/26）多項式曲線フィッティング（2010/3/27）最尤推定、MAP推定、ベイズ推定（2010/4/4）分類における最小二乗（2010/4/

hirokist 2013/01/10

PRML
python

リンク

類似楽曲検索システムを作ろう - 人工知能に関する断創録

もう1年以上かけて音声信号処理の勉強をしてきました（Pythonで音声信号処理）。ここらで具体的なアプリケーションとして類似楽曲検索の実験をしてみたのでレポートをまとめておきます。言語はPythonです。前に類似画像検索システムを作ろう（2009/10/3） Visual Wordsを用いた類似画像検索（2010/2/27）という画像の類似検索に関するエントリを書きましたが、今回は画像ではなく音楽を対象に類似検索をやってみたいと思います！今回作る類似楽曲検索システムは、従来からよくあるアーティスト名や曲名などテキストで検索するシステムや購買履歴をもとにオススメする協調フィルタリングベースのシステムとは異なります。WAVEファイルやMP3ファイルなどの音楽波形そのものを入力とするのが特徴です。たとえば、「具体的なアーティストや曲名は知らないけれど、この曲とメロディや雰囲気が似た曲がほ

hirokist 2012/10/15

python
MFCC

リンク

ナイーブベイズを用いたテキスト分類 - 人工知能に関する断想録

今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類（Text Classification, Text Categorization）の技法たちを試していきたいと思います。テキスト分類は文書分類（Document Classification）という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。テキスト分類とはテキスト分類とは、与えられた文書（Webページとか）をあらかじめ与えられたいくつかのカテゴリ（クラス）に自動分類するタス

hirokist 2012/04/24

機械学習

リンク

メル周波数ケプストラム係数（MFCC） - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）の第19回目。今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients）を求めてみました。いわゆるMFCCです。 MFCCはケプストラム（2012/2/11）と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめるとプリエンファシスフィルタで波形の高域成分を強調する窓関数をかけた後にFFTして振幅スペクトルを求める振幅スペクトルにメルフィルタバンクをかけて圧縮する上記の圧縮した数値列を信号とみなして離散コサイン変換する得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

hirokist 2012/02/27

音声認識

リンク

ケプストラム分析 - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）の第18回目。今回は、音声の特徴量としてよく使われるMFCC（Mel-Frequency Cepstrum Coefficients: メル周波数ケプストラム係数）抽出に向けた第一歩としてケプストラム分析を試しました。Wikipediaでケプストラムの定義を見てみると。ケプストラムは1963年、Bogertらの論文で定義された。ケプストラムの定義は以下の通り。口語的定義: （信号の）ケプストラムとは、（信号の）フーリエ変換の対数（位相アンラッピングを施したもの）をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。アルゴリズ

hirokist 2012/02/20

リンク

3日で作る高速特定物体認識システム (1) 物体認識とは - 人工知能に関する断創録

情報処理学会の学会誌『情報処理』の2008年9月号（Vol.49, No.9）に「3日で作る高速特定物体認識システム」という特集記事があります。OpenCVを用いた面白そうなプロジェクトなのでレポートにまとめてみようと思います。3日でできるかはわからないけど。残念ながらこの記事はPDFを無料でダウンロードすることができません（CiNiiでオープンアクセス可能になったみたいです）。なので会員以外で元記事が読みたい人は図書館でコピーする必要があるかも・・・また、2009年9月号の人工知能学会誌にも物体認識の解説「セマンティックギャップを超えて―画像・映像の内容理解に向けてー」があります。こちらも非常に参考になりますが同様にPDFが手に入りません・・・。他にもいくつかわかりやすい総説論文へのリンクを参考文献にあげておきます。物体認識とは物体認識（object recognition）は、画

hirokist 2011/08/23

良記事。SIFT、SURFのOpenCVを使った実装と解説。

リンク

はてなブックマーク

タグ

ブックマーク / aidiary.hatenablog.com (10)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス