2. 2 音声の認識 (Speech Recognition) 入力された音声を文字列に変換する (Speech-to-Text) 概要 – 特徴抽出[Feature extraction] (MFCC) – 音響モデル[Acoustic model] (HMM) – 言語モデル[Language model] (FSG, N-gram) – デコーダ[Decoder]
Pythonで音声信号処理(2011/05/14)の第19回目。 今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients)を求めてみました。いわゆるMFCCです。 MFCCはケプストラム(2012/2/11)と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめると プリエンファシスフィルタで波形の高域成分を強調する 窓関数をかけた後にFFTして振幅スペクトルを求める 振幅スペクトルにメルフィルタバンクをかけて圧縮する 上記の圧縮した数値列を信号とみなして離散コサイン変換する 得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど
annyangはJavaScript製のオープンソース・ソフトウェア(MIT License)です。 Siriなどの登場によって一気に知名度があがった音声認識システムですが、それをWebベースで、しかもJavaScriptだけで実現してしまおうというのがannyangです。 まずマイクへのアクセス許可が求められます。 いきなりHelloというと文字が表示されます。 さらにShow me〜というとFlickr検索をします。 Show TPS reportで下から画像がせり出してきます。 annyangではモダンなWebブラウザに実装されている音声認識API(webkitSpeechRecognitionなど)を使っています。そして指定したワードにヒットした場合に予め決められた処理をコールする仕組みです。音声認識を使ったイベント処理を容易に実装できる面白いライブラリです。 MOONGIFTはこ
AndroidプログラミングのTOPへ 音声入力した内容を,そのまま音声出力してみよう。 というAndroidアプリのサンプルコード。 RecognizerIntentを使う場合と,SpeechRecognizerを使う場合の2通り掲載。 前置き サンプルコード インプット:音声認識または音声入力(ASR, Auto Speech Recognition) アウトプット:音声合成,読み上げ(TTS, Text To Speech) 補足:Google音声入力について 補足2:処理対象となる言語をプログラムから指定 補足3:専用の画面を表示しない場合 前置き Google音声入力は,とても便利だ。 いちいち手動で文字を打たなくても,端末が音声を聞き取って自動認識し,文字を入力してくれる。 アプリ開発者としても,自然言語処理を気軽にAPI経由で行なえる。 人間と自然に対話する高度なUIを実装し
音声言語情報処理研究の一環として開発された「音声インタラクションシステム構築ツールキット:MMDAgent」の紹介動画です。MMDAgentは音声認識・音声合成・3Dキャラクター表示・音声インタラクション制御などの要素技術を結集したツールキットで、ユーザーは、画面上の3Dキャラクターと生き生きとした会話を楽しむシステムを構築することができます。今回はMMDAgentの応用例のひとつとして、スマートフォン向け双方向音声案内アプリケーション「スマートメイちゃん」を紹介します。このシステムの一部はCREST uDialogue Projectの成果です。 ■BGM http://www.otonomori.info/ (音の杜) ■ナレーション http://hts-engine.sourceforge.net/ (Flite+hts_engine) ■前作 http://www.youtube
日本語連続音声認識エンジン"Julius"をAndroidで動作させるの連載3回目、最終回をお届けします。 第一回 と 第二回 で、Juliusを用いたAndroidでオフライン音声認識を行うアプリのJNIライブラリが生成できました。最終回の今回は、JNIを利用するJava側の実装について解説します。動作イメージは以下のようになります。 今回も少し?濃いですが、出てくるのはJavaコードだけなので大丈夫!タブンね? では、始めましょう! AndroidでJulius用に音声を録音する Androidで音声を録音するためには、 MediaRecorder を用いる方法と AudioRecord を用いる方法の二種類が存在します。マイクから入力された音声を録音してファイル出力するだけならば、高レベルなAPIを提供するMediaRecorderを用いるほうが簡単です。出力ファイルのopen/c
日本語連続音声認識エンジン"Julius"をAndroidで動作させるの連載2回目です。Androidでオフライン音声認識を行うアプリに着々と近づいています。 今回は、 前回 生成したAndroidARM系CPU用Juliusライブラリと、AndroidのJavaアプリとをつなぐJNIコードを紹介します。 残念なことに、今回も一筋縄ではいきません。Juliusをライブラリとして利用する手順が複雑なため、Javaのnativeメソッド経由でJuliusライブラリを呼び出す"フツーのJNI"だけでなく、Juliusライブラリからコールバック関数経由でJavaメソッドが呼び出されるという逆方向の処理が必要なためです。 さて、覚悟も決まったところで、コードの世界に飛び込みましょう。 動作するソースコードは、 githubの Julius for Android を参照してください。 Juliu
iPhone4SやiPhone5をお持ちのみなさん、 Apple Siri は活用していますか?NTT docomoのスマートフォンをお持ちの方は、 しゃべってコンシェル を使ってらっしゃいますか? AndroidやiOSを搭載したスマートデバイスが花盛りの昨今、Apple Siriやしゃべってコンシェルのような スマートデバイスに話しかける」ことで何らかのアクションを起こさせるサービスが、特別な機器を揃えずとも使えるようになりました。 このようなサービスは一般消費者にとっても有用ですが、スマートデバイスを企業内で利用するシーンでは特に力を発揮します。 例えば両手がふさがった状態で機械の整備をしている時に、胸ポケットに入れたスマートデバイスに「次は何をするんだっけ?」と話しかけたら、「次は右の3番ボルトを10N.mのトルクで締めてください」とか答えてくれたら、すごく便利ですよね。 この
はじめに 本エントリは未来のお部屋シリーズの第4弾です。 本シリーズでは、音声認識システムの Julius と TCP/IP 通信で制御できる赤外線学習リモコン iRemocon を繋いで音声認識による家電操作の実現を目指しています。 ついに!音声認識でお部屋の家電を操作できましたので、ご紹介します。 環境 Ubuntu 10.04 Boost 1.48.0 gcc version 4.6.1 20110617 (prerelease) (GCC) Julius grammar-kit-v4.1 iRemocon 集音マイク×2 (2分岐) 構成 動作構成は以下になります。 マクロ実行部は iRemocon 以外の何か操作も出来るようにしようと思ってますが、未実装です。 ソースコード 各ソースコードは github に上げました。 https://github.com/hecomi/Jul
万能秘書はどのサービス?――「Siri」「しゃべってコンシェル」「音声アシスト」を徹底比較 +D Mobile 8月10日(金)11時8分配信 Siri、しゃべってコンシェル、音声アシストの画面。Siriは起動と同時に音声を入力できる状態になっているが、しゃべってコンシェル、音声アシストはマイクボタンをタッチしてから入力。また、しゃべってコンシェルはテキストで質問を入力したり、時計のアイコンをタッチして入力の履歴を表示したりもできる iPhoneの「Siri」が登場して以来、自然な言葉で話しかけることで、情報を確認したり端末の機能を利用できたりする音声認識アシスタントに注目が集まっている。以前から、話した言葉を認識し、それをテキストに置き換えたりアプリを起動したりするものはあるが、Siriを始めとした最近の人気サービスは、まるで端末の中に秘書かコンシェルジュがいるかのように、コミュニケーシ
This domain may be for sale!
研究室の輪講で時々、簡単な講義みたいなのをやっていました。 パワーポイントのプレゼン資料をせっかく作ったのに1度きりで眠らせておくのももったいないのでここに置いておきます。 音声・言語の基礎と音声認識 パワーポイント資料(2005年度前期) 音声認識の研究を始めようと言うチャレンジングな先輩がいたので、 一緒に勉強したときの事をまとめました。 あと、ちょうどこの時期、(研究とか全然関係なく)比較言語学的なことにはまっていたので、 その辺りの話も混ざっています。(というか、半分以上こっちの話だったりします。) 参考にした教科書は、 鹿野 清宏 他 (著)、「IT Text 音声認識システム」(オーム社; ISBN: 4274132285) プログラミングのための線形代数 パワーポイント資料(2006年度前期) 線形代数というと、どんな分野においても使う非常に基礎的な知識で、 情報系の分野にお
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く