タグ

音声認識に関するhirokistのブックマーク (16)

  • SPTKの使い方 (7) メルケプストラム分析合成 - 人工知能に関する断創録

    SPTKの使い方 (6)(2012/8/5)の続き。 今回は、SPTK(2012/7/1)を使って音声合成の実験をしてみました。ここで言う音声合成は、テキストを音声に変換するTTS(Text-to-Speech)ではなく、分析合成と呼ばれるものです。 分析合成では、人間の音声からパラメータを抽出し、ソース・フィルタモデル(Wikipedia)を用いて音声を再合成します。いわゆるヴォコーダーという技術です。ヴォコーダー(Wikipedia)を調べると 来の意味は通信用の音声圧縮技術で、携帯電話などの多くの機器で使用されている。音声の波形を直接送るのではなくパラメータ化して送り、受信側ではそれらのパラメータから元の音声を合成する。 ヴォコーダー(Wikipedia) とあります。ん?ということは、携帯電話で聞いているのは実際の肉声ではなく、パラメータから再合成した合成音声なのですかね?これは

    SPTKの使い方 (7) メルケプストラム分析合成 - 人工知能に関する断創録
  • Node.js で簡単に音声認識できるモジュールを作ってみた #nodefest - 凹みTips

    はじめに この記事は東京Node学園祭2012 アドベントカレンダーの 23 日目の記事です。 現在、オープンソースの大語彙連続音声認識エンジン Julius を利用して音声による家電操作を行なっているのですが、どんな言葉を認識させるかの文法をゴリゴリ書いたり、コールバックの処理を C++ でゴリゴリ書くのが大変だったので、これらを簡単に実現してくれる Node.js のモジュールをつくってみました。 WEB 関連の話題で扱われることの多い Node.js ですが、C++ でネイティブモジュールを作成することによる Node.js の可能性を感じてもらえれば、と思います。 出来るようになること 以下のように音声認識させる言葉を登録、その文言を Julius が解釈できる形式にコンパイルして、Julius インスタンスを生成、スタートするだけで音声認識が可能になります。 var Julius

    Node.js で簡単に音声認識できるモジュールを作ってみた #nodefest - 凹みTips
  • MLLR適応の方法

    音響モデルのMLLR適応の方法を示します. ある特定のひとの音声や,特定の環境の音声を適応用データとし, それらのデータを元の音響モデルをMLLR適応することで, 学習データにおける話者,環境での認識率UPにつながります. ここでは,MLLR適応の手順だけをしめし, 具体的な仕組みについては触れていません. また時間があればきちんとまとめたいと思っています. 間違った記述が含まれている可能性があるので自己責任でお使いください. 修正すべき箇所を教えてくださるとうれしいです. また,著作権など侵害している場合は勝丸(katumaru[at]kuis.kyoto-u.ac.jp) までご連絡ください. ディレクトリ構成 mllr |-- config | |-- config.HCopy | |-- config.adapt-tri | `-- config.train |-- lab |

  • RNNLM Toolkit

    by Tomas Mikolov, 2010-2012 The Project has been moved to http://rnnlm.org Introduction Neural network based language models are nowdays among the most successful techniques for statistical language modeling. They can be easily applied in wide range of tasks, including automatic speech recognition and machine translation, and provide significant improvements over classic backoff n-gram models. The

    hirokist
    hirokist 2012/04/19
    RNNLM(回帰ニューラルネットワーク言語モデル)作成ツールキット
  • メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14)の第19回目。 今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients)を求めてみました。いわゆるMFCCです。 MFCCはケプストラム(2012/2/11)と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめると プリエンファシスフィルタで波形の高域成分を強調する 窓関数をかけた後にFFTして振幅スペクトルを求める 振幅スペクトルにメルフィルタバンクをかけて圧縮する 上記の圧縮した数値列を信号とみなして離散コサイン変換する 得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

    メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録
  • ケプストラム分析 - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14)の第18回目。 今回は、音声の特徴量としてよく使われるMFCC(Mel-Frequency Cepstrum Coefficients: メル周波数ケプストラム係数)抽出に向けた第一歩としてケプストラム分析を試しました。Wikipediaでケプストラムの定義を見てみると。 ケプストラムは1963年、Bogertらの論文で定義された。ケプストラムの定義は以下の通り。 口語的定義: (信号の)ケプストラムとは、(信号の)フーリエ変換の対数(位相アンラッピングを施したもの)をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。 数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。 アルゴリズ

    ケプストラム分析 - 人工知能に関する断創録
  • ダウンロード

    ここには認識エンジン Julius のソースアーカイブ,ならびにJuliusを応用した様々なツール(キット)が置いてあります. ■Julius 最新版・パッチ Julius 最新版ソース・パッチ 「日語ディクテーション基ソフトウェア」(IPA最終版)へのパッチ Julius for Windows (by 坂野@名古屋大さん) ■Julius 応用キット 単語・音素セグメンテーションキット 孤立単語認識キット 連続単語認識キット なお認識を行うには別途モデルが必要です.初めての方は 実行キット,あるいは IPA開発キット を入手して下さい. Julius 最新版ソースおよびパッチ (最終更新:'01/06/04) julius-3.1p2.tar.gz ('01/06/04 公開) New! 3.1 系最終版です.オーム社の教科書に収録のものと同一です. julius-3.1p1.ta

  • HTKによる音響モデル構築 - Miyazawa’s Pukiwiki 公開版

    用語 † CSJ … Corpus of Spontaneous Japanese の略。 JNASJapanese Newspaper Article Sentences の略。 基的にCSJでの音響モデル構築についてまとめています。JNASについてはリンク先にメモがあります。 HTK … Hidden Markov Model Tool Kit の略。 Julius/Julian の音響モデルとして利用できる! Hidden Markov Model(HMM) … ニューラルネットワークを用いた母音範疇の獲得モデルに関する研究 pp.40 を参照 ↑ 教科書・参考文献 † 「HTKによる大語彙連続音声認識, 菊池英明, 2000」 これを、以下『テキスト』と呼びます。以下の「HTKによる大語彙連続音声認識」は、テキストにしたがって進めます。 菊池先生がお持ちのはずですので、コピ

  • ますうぃき - ますうぃき

    hirokist
    hirokist 2012/01/25
    音響モデル、言語モデルなど音声認識の情報がまとまっている。他プログラミング言語TIPS。
  • 音声メディア研究室 HMM 作成 メモ

    [このメモについて] このメモは、HMM Tool Kit (HTK)を用いて HMM を作成するための手順を示したものです。 基的には、 HTK Book 第3章と同じ内容になっています。 HTKBook を読む際の参考にして下さい。 なおHTK Tutorial 日語版は多少古いため、一部説明が抜けている部分があるので 注意して下さい。 [準備] HTK の各ツールが使用できるように、path の設定をしておく必要があります。 [ HMM 作成の手順 ] [step 3] 0) 音声ファイルを準備 HSLab を使用して音声を録音する。 ※ HTKBook では、まず文法と辞書を用意してから、その文法で生成される文を 録音するようになっているが、文法は後からでも構わない。 [step 2] 1) dict を作成 (使用する音素のラベルと記号を記述) 認識させたい単

  • HTK 3.0 HOWTO (工事中)

    データ作成 HTKDemoの離散HMM(状態数:3, VQcodebook:64-64-16(Linear))を参考に使い方を一通り眺めてみる. tidata/ TIMIDデータベースより10文(7文:training,3文:testing) 発音記号ファイル(tidata/*.phn) →[HLEd, (edfiles/*.led)] → ラベルファイ ル(label/bcplabs/mon/*.lab) 音声ファイル(tidata/*.adc) →[HCopy]→ 特徴量ファイル(data/*/*.mfc) ネットワークファイル monNetworkを編集 % HParse networks/monNetwork(gram) networks/monLattice(wdnet:Standard Lattice Format(SLF)) networks/monNetwork $phn

  • Juliusで認識文法とN-gramを併用する - あしたからがんばる ―椀屋本舗

    こんばんは、お久しぶりです。 今回は他研究室の卒論生のお手伝いということで、Juliusにおいて認識文法とN-gramによる認識を併用する、という方法を扱うことになったので、ここにまとめておきます。 まず、Juliusとは京大河原研で開発されたフリーウェアの大語彙連続音声認識用デコーダです。音声認識技術は音響モデル、言語モデル、そしてデコーダから構成されるのが一般的ですが、Juliusはデコーダに加えてデフォルトで音響モデルと言語モデルが付属しており、高い汎用性を備えています。 音声認識にはおおまかに分けて、孤立単語認識、認識文法による認識、大語彙連続音声認識の3種類があります。 孤立単語認識とは、個々の単語を対象として認識を行うものです。最近ではGoogle音声認識などが一番イメージに近いと思います。ちなみに、Google音声認識はかなり広範な語彙を扱う上にディクテーションに近いような認

    Juliusで認識文法とN-gramを併用する - あしたからがんばる ―椀屋本舗
  • 中臺研究室

  • https://www.yusukekondo.com/htk.html

    hirokist
    hirokist 2011/05/11
    HTKのインストールと音響モデルの作成
  • 音声認識実験マニュアル

    また、作成したhypファイルから<s>, </s>をエディタを用いて削除しておくこと。 正解文ファイルの作成 kyoto.textから各ファイルを作ってきたと仮定して、正解文ファイルの作成方法を示す。例えば3人が10文ずつ発話をしたのであれば、.eval.textを3回繰り返したファイルを.eval3.textとして作成すればよい。エディタを使用しなくても、例えば下記の方法で作成できる。

    hirokist
    hirokist 2011/03/10
    Julius音声認識率算出用score
  • Palmkit - a statistical language modeling toolkit

    Palmkit Homepage Palmkit (Publicly Available Language Modeling Toolkit)は、n-gram言語モデルが簡単に作成できるツールキットです。 What's New 最新版は 1.0.32 です. メーリングリストを作りました.ユーザの方はお気軽に登録を. 参加方法はこちらを ごらんください. 特徴 CMU-Cambridge Statistical Language Modeling Toolkit とコマンドレベルで互換。 クラスn-gramのサポート。(単語クラスタリング機能は含まれていません) 組み合わせ言語モデルのサポート。 動作環境 Linux, FreeBSD 等UNIX互換環境 ダウンロード 最新版:version 1.0.32 (tar.gz形式) 更新履歴はこちら . ドキュメント HTML版はここ からどう

    hirokist
    hirokist 2011/01/27
    音声認識の言語モデル作成用
  • 1