[B! 音声認識] hirokistのブックマーク

SPTKの使い方 (7) メルケプストラム分析合成 - 人工知能に関する断創録

SPTKの使い方 (6)（2012/8/5）の続き。今回は、SPTK（2012/7/1）を使って音声合成の実験をしてみました。ここで言う音声合成は、テキストを音声に変換するTTS（Text-to-Speech）ではなく、分析合成と呼ばれるものです。分析合成では、人間の音声からパラメータを抽出し、ソース・フィルタモデル（Wikipedia）を用いて音声を再合成します。いわゆるヴォコーダーという技術です。ヴォコーダー（Wikipedia）を調べると本来の意味は通信用の音声圧縮技術で、携帯電話などの多くの機器で使用されている。音声の波形を直接送るのではなくパラメータ化して送り、受信側ではそれらのパラメータから元の音声を合成する。ヴォコーダー（Wikipedia）とあります。ん？ということは、携帯電話で聞いているのは実際の肉声ではなく、パラメータから再合成した合成音声なのですかね？これは

hirokist 2013/02/08

音声認識

リンク

Node.js で簡単に音声認識できるモジュールを作ってみた #nodefest - 凹みTips

はじめにこの記事は東京Node学園祭2012 アドベントカレンダーの 23 日目の記事です。現在、オープンソースの大語彙連続音声認識エンジン Julius を利用して音声による家電操作を行なっているのですが、どんな言葉を認識させるかの文法をゴリゴリ書いたり、コールバックの処理を C++ でゴリゴリ書くのが大変だったので、これらを簡単に実現してくれる Node.js のモジュールをつくってみました。 WEB 関連の話題で扱われることの多い Node.js ですが、C++ でネイティブモジュールを作成することによる Node.js の可能性を感じてもらえれば、と思います。出来るようになること以下のように音声認識させる言葉を登録、その文言を Julius が解釈できる形式にコンパイルして、Julius インスタンスを生成、スタートするだけで音声認識が可能になります。 var Julius

hirokist 2013/01/14

リンク

MLLR適応の方法

音響モデルのMLLR適応の方法を示します．ある特定のひとの音声や，特定の環境の音声を適応用データとし，それらのデータを元の音響モデルをMLLR適応することで，学習データにおける話者，環境での認識率UPにつながります．ここでは，MLLR適応の手順だけをしめし，具体的な仕組みについては触れていません．また時間があればきちんとまとめたいと思っています．間違った記述が含まれている可能性があるので自己責任でお使いください．修正すべき箇所を教えてくださるとうれしいです．また，著作権など侵害している場合は勝丸(katumaru[at]kuis.kyoto-u.ac.jp) までご連絡ください．ディレクトリ構成 mllr |-- config | |-- config.HCopy | |-- config.adapt-tri | `-- config.train |-- lab |

hirokist 2012/06/21

音声認識

リンク

RNNLM Toolkit

by Tomas Mikolov, 2010-2012 The Project has been moved to http://rnnlm.org Introduction Neural network based language models are nowdays among the most successful techniques for statistical language modeling. They can be easily applied in wide range of tasks, including automatic speech recognition and machine translation, and provide significant improvements over classic backoff n-gram models. The

hirokist 2012/04/19

RNNLM（回帰ニューラルネットワーク言語モデル）作成ツールキット

音声認識

リンク

メル周波数ケプストラム係数（MFCC） - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）の第19回目。今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients）を求めてみました。いわゆるMFCCです。 MFCCはケプストラム（2012/2/11）と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめるとプリエンファシスフィルタで波形の高域成分を強調する窓関数をかけた後にFFTして振幅スペクトルを求める振幅スペクトルにメルフィルタバンクをかけて圧縮する上記の圧縮した数値列を信号とみなして離散コサイン変換する得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

hirokist 2012/02/27

音声認識

リンク

ケプストラム分析 - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）の第18回目。今回は、音声の特徴量としてよく使われるMFCC（Mel-Frequency Cepstrum Coefficients: メル周波数ケプストラム係数）抽出に向けた第一歩としてケプストラム分析を試しました。Wikipediaでケプストラムの定義を見てみると。ケプストラムは1963年、Bogertらの論文で定義された。ケプストラムの定義は以下の通り。口語的定義: （信号の）ケプストラムとは、（信号の）フーリエ変換の対数（位相アンラッピングを施したもの）をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。アルゴリズ

hirokist 2012/02/20

リンク

ダウンロード

ここには認識エンジン Julius のソースアーカイブ，ならびにJuliusを応用した様々なツール（キット）が置いてあります． ■Julius 最新版・パッチ Julius 最新版ソース・パッチ「日本語ディクテーション基本ソフトウェア」(IPA最終版)へのパッチ Julius for Windows (by 坂野＠名古屋大さん) ■Julius 応用キット単語・音素セグメンテーションキット孤立単語認識キット連続単語認識キットなお認識を行うには別途モデルが必要です．初めての方は実行キット，あるいは IPA開発キットを入手して下さい． Julius 最新版ソースおよびパッチ (最終更新：'01/06/04) julius-3.1p2.tar.gz ('01/06/04 公開) New! 3.1 系最終版です．オーム社の教科書に収録のものと同一です． julius-3.1p1.ta

hirokist 2012/02/03

音声認識

リンク

HTKによる音響モデル構築 - Miyazawa’s Pukiwiki 公開版

用語 † CSJ … Corpus of Spontaneous Japanese の略。 JNAS … Japanese Newspaper Article Sentences の略。基本的にCSJでの音響モデル構築についてまとめています。JNASについてはリンク先にメモがあります。 HTK … Hidden Markov Model Tool Kit の略。 Julius/Julian の音響モデルとして利用できる！ Hidden Markov Model(HMM) … ニューラルネットワークを用いた母音範疇の獲得モデルに関する研究 pp.40 を参照 ↑ 教科書・参考文献 † 「HTKによる大語彙連続音声認識, 菊池英明, 2000」これを、以下『テキスト』と呼びます。以下の「HTKによる大語彙連続音声認識」は、テキストにしたがって進めます。菊池先生がお持ちのはずですので、コピ

hirokist 2012/02/02

音声認識

リンク

ますうぃき - ますうぃき

hirokist 2012/01/25

音響モデル、言語モデルなど音声認識の情報がまとまっている。他プログラミング言語TIPS。

音声認識

リンク

音声メディア研究室 HMM 作成メモ

[このメモについて] このメモは、HMM Tool Kit (HTK)を用いて HMM を作成するための手順を示したものです。基本的には、 HTK Book 第３章と同じ内容になっています。 HTKBook を読む際の参考にして下さい。なおHTK Tutorial 日本語版は多少古いため、一部説明が抜けている部分があるので注意して下さい。 [準備] HTK の各ツールが使用できるように、path の設定をしておく必要があります。 [ HMM 作成の手順 ] [step 3] 0) 音声ファイルを準備 HSLab を使用して音声を録音する。 ※ HTKBook では、まず文法と辞書を用意してから、その文法で生成される文を録音するようになっているが、文法は後からでも構わない。 [step 2] 1) dict を作成 (使用する音素のラベルと記号を記述) 認識させたい単

hirokist 2012/01/25

音声認識

リンク

HTK 3.0 HOWTO (工事中)

データ作成 HTKDemoの離散HMM(状態数:3, VQcodebook:64-64-16(Linear))を参考に使い方を一通り眺めてみる． tidata/ TIMIDデータベースより10文(7文:training,3文:testing) 発音記号ファイル(tidata/*.phn) →[HLEd, (edfiles/*.led)] → ラベルファイル(label/bcplabs/mon/*.lab) 音声ファイル(tidata/*.adc) →[HCopy]→ 特徴量ファイル(data/*/*.mfc) ネットワークファイル monNetworkを編集 % HParse networks/monNetwork(gram) networks/monLattice(wdnet:Standard Lattice Format(SLF)) networks/monNetwork $phn

hirokist 2012/01/25

音声認識

リンク

Juliusで認識文法とN-gramを併用する - あしたからがんばる ―椀屋本舗

こんばんは、お久しぶりです。今回は他研究室の卒論生のお手伝いということで、Juliusにおいて認識文法とN-gramによる認識を併用する、という方法を扱うことになったので、ここにまとめておきます。まず、Juliusとは京大河原研で開発されたフリーウェアの大語彙連続音声認識用デコーダです。音声認識技術は音響モデル、言語モデル、そしてデコーダから構成されるのが一般的ですが、Juliusはデコーダに加えてデフォルトで音響モデルと言語モデルが付属しており、高い汎用性を備えています。音声認識にはおおまかに分けて、孤立単語認識、認識文法による認識、大語彙連続音声認識の３種類があります。孤立単語認識とは、個々の単語を対象として認識を行うものです。最近ではGoogle 音声認識などが一番イメージに近いと思います。ちなみに、Google 音声認識はかなり広範な語彙を扱う上にディクテーションに近いような認

hirokist 2012/01/23

リンク

中臺研究室

hirokist 2011/08/04

音声認識

リンク

https://www.yusukekondo.com/htk.html

hirokist 2011/05/11

HTKのインストールと音響モデルの作成

音声認識

リンク

音声認識実験マニュアル

また、作成したhypファイルから<s>, </s>をエディタを用いて削除しておくこと。正解文ファイルの作成 kyoto.textから各ファイルを作ってきたと仮定して、正解文ファイルの作成方法を示す。例えば3人が10文ずつ発話をしたのであれば、.eval.textを3回繰り返したファイルを.eval3.textとして作成すればよい。エディタを使用しなくても、例えば下記の方法で作成できる。

hirokist 2011/03/10

Julius音声認識率算出用score

リンク

Palmkit - a statistical language modeling toolkit

Palmkit Homepage Palmkit (Publ icly Available Language Modeling Toolkit)は、n-gram言語モデルが簡単に作成できるツールキットです。 What's New 最新版は 1.0.32 です．メーリングリストを作りました．ユーザの方はお気軽に登録を．参加方法はこちらをごらんください．特徴 CMU-Cambridge Statistical Language Modeling Toolkit とコマンドレベルで互換。クラスn-gramのサポート。（単語クラスタリング機能は含まれていません）組み合わせ言語モデルのサポート。動作環境 Linux, FreeBSD 等UNIX互換環境ダウンロード最新版：version 1.0.32 (tar.gz形式）更新履歴はこちら．ドキュメント HTML版はここからどう

hirokist 2011/01/27

音声認識の言語モデル作成用

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

音声認識に関するhirokistのブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

【復旧済】はてなブックマークへの接続ができない・不安定になる障害が発生していました

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス