[B! 音声認識] rin51のブックマーク

音声認識の基礎

2. 2 音声の認識 (Speech Recognition) 入力された音声を文字列に変換する (Speech-to-Text) 概要 – 特徴抽出[Feature extraction] (MFCC) – 音響モデル[Acoustic model] (HMM) – 言語モデル[Language model] (FSG, N-gram) – デコーダ[Decoder]

rin51 2019/12/23

音声認識

リンク

メル周波数ケプストラム係数（MFCC） - 人工知能に関する断創録

Pythonで音声信号処理（2011/05/14）の第19回目。今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数（Mel-Frequency Cepstrum Coefficients）を求めてみました。いわゆるMFCCです。 MFCCはケプストラム（2012/2/11）と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめるとプリエンファシスフィルタで波形の高域成分を強調する窓関数をかけた後にFFTして振幅スペクトルを求める振幅スペクトルにメルフィルタバンクをかけて圧縮する上記の圧縮した数値列を信号とみなして離散コサイン変換する得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

rin51 2019/12/23

リンク

音声認識APIを手軽に使えるようにする·annyang MOONGIFT

annyangはJavaScript製のオープンソース・ソフトウェア（MIT License）です。 Siriなどの登場によって一気に知名度があがった音声認識システムですが、それをWebベースで、しかもJavaScriptだけで実現してしまおうというのがannyangです。まずマイクへのアクセス許可が求められます。いきなりHelloというと文字が表示されます。さらにShow me〜というとFlickr検索をします。 Show TPS reportで下から画像がせり出してきます。 annyangではモダンなWebブラウザに実装されている音声認識 API（webkitSpeechRecognitionなど）を使っています。そして指定したワードにヒットした場合に予め決められた処理をコールする仕組みです。音声認識を使ったイベント処理を容易に実装できる面白いライブラリです。 MOONGIFTはこ

rin51 2013/09/30

リンク

Androidで音声入力した内容を認識し，そのまま音声合成。「おうむ返し」アプリのソースコード - 主に言語とシステム開発に関して

AndroidプログラミングのTOPへ音声入力した内容を，そのまま音声出力してみよう。というAndroidアプリのサンプルコード。 RecognizerIntentを使う場合と，SpeechRecognizerを使う場合の２通り掲載。前置きサンプルコードインプット：音声認識または音声入力（ASR, Auto Speech Recognition）アウトプット：音声合成，読み上げ（TTS, Text To Speech）補足：Google音声入力について補足２：処理対象となる言語をプログラムから指定補足３：専用の画面を表示しない場合前置き Google音声入力は，とても便利だ。いちいち手動で文字を打たなくても，端末が音声を聞き取って自動認識し，文字を入力してくれる。アプリ開発者としても，自然言語処理を気軽にAPI経由で行なえる。人間と自然に対話する高度なUIを実装し

rin51 2013/02/07

リンク

【MMDAgent】スマートフォンで3D秘書エージェントを作ってみた

音声言語情報処理研究の一環として開発された「音声インタラクションシステム構築ツールキット：MMDAgent」の紹介動画です。MMDAgentは音声認識・音声合成・3Dキャラクター表示・音声インタラクション制御などの要素技術を結集したツールキットで、ユーザーは、画面上の3Dキャラクターと生き生きとした会話を楽しむシステムを構築することができます。今回はMMDAgentの応用例のひとつとして、スマートフォン向け双方向音声案内アプリケーション「スマートメイちゃん」を紹介します。このシステムの一部はCREST uDialogue Projectの成果です。 ■BGM http://www.otonomori.info/ (音の杜) ■ナレーション http://hts-engine.sourceforge.net/ (Flite+hts_engine) ■前作 http://www.youtube

rin51 2013/01/05

リンク

日本語連続音声認識エンジン"Julius"をAndroidで動作させる 3 - Tech-Sketch

日本語連続音声認識エンジン"Julius"をAndroidで動作させるの連載3回目、最終回をお届けします。第一回と第二回で、Juliusを用いたAndroidでオフライン音声認識を行うアプリのJNIライブラリが生成できました。最終回の今回は、JNIを利用するJava側の実装について解説します。動作イメージは以下のようになります。今回も少し？濃いですが、出てくるのはJavaコードだけなので大丈夫！タブンね？では、始めましょう！ AndroidでJulius用に音声を録音する　 Androidで音声を録音するためには、 MediaRecorder を用いる方法と AudioRecord を用いる方法の二種類が存在します。マイクから入力された音声を録音してファイル出力するだけならば、高レベルなAPIを提供するMediaRecorderを用いるほうが簡単です。出力ファイルのopen/c

rin51 2012/12/19

リンク

日本語連続音声認識エンジン"Julius"をAndroidで動作させる 2 - Tech-Sketch

日本語連続音声認識エンジン"Julius"をAndroidで動作させるの連載2回目です。Androidでオフライン音声認識を行うアプリに着々と近づいています。今回は、前回生成したAndroidARM系CPU用Juliusライブラリと、AndroidのJavaアプリとをつなぐJNIコードを紹介します。残念なことに、今回も一筋縄ではいきません。Juliusをライブラリとして利用する手順が複雑なため、Javaのnativeメソッド経由でJuliusライブラリを呼び出す"フツーのJNI"だけでなく、Juliusライブラリからコールバック関数経由でJavaメソッドが呼び出されるという逆方向の処理が必要なためです。さて、覚悟も決まったところで、コードの世界に飛び込みましょう。動作するソースコードは、 githubの Julius for Android を参照してください。 Juliu

rin51 2012/12/19

リンク

日本語連続音声認識エンジン"Julius"をAndroidで動作させる 1 - Tech-Sketch

iPhone4SやiPhone5をお持ちのみなさん、 Apple Siri は活用していますか？NTT docomoのスマートフォンをお持ちの方は、しゃべってコンシェルを使ってらっしゃいますか？ AndroidやiOSを搭載したスマートデバイスが花盛りの昨今、Apple Siriやしゃべってコンシェルのようなスマートデバイスに話しかける」ことで何らかのアクションを起こさせるサービスが、特別な機器を揃えずとも使えるようになりました。このようなサービスは一般消費者にとっても有用ですが、スマートデバイスを企業内で利用するシーンでは特に力を発揮します。例えば両手がふさがった状態で機械の整備をしている時に、胸ポケットに入れたスマートデバイスに「次は何をするんだっけ？」と話しかけたら、「次は右の3番ボルトを10N.mのトルクで締めてください」とか答えてくれたら、すごく便利ですよね。この

rin51 2012/12/19

リンク

リモコンはオワコン。音声認識でお部屋の家電を操作してみた。 - 凹みTips

はじめに本エントリは未来のお部屋シリーズの第４弾です。本シリーズでは、音声認識システムの Julius と TCP/IP 通信で制御できる赤外線学習リモコン iRemocon を繋いで音声認識による家電操作の実現を目指しています。ついに！音声認識でお部屋の家電を操作できましたので、ご紹介します。環境 Ubuntu 10.04 Boost 1.48.0 gcc version 4.6.1 20110617 (prerelease) (GCC) Julius grammar-kit-v4.1 iRemocon 集音マイク×2 (2分岐) 構成動作構成は以下になります。マクロ実行部は iRemocon 以外の何か操作も出来るようにしようと思ってますが、未実装です。ソースコード各ソースコードは github に上げました。 https://github.com/hecomi/Jul

rin51 2012/11/27

リンク

日本語音声認識エンジン Julius for Android

rin51 2012/09/20

リンク

万能秘書はどのサービス？――「Siri」「しゃべってコンシェル」「音声アシスト」を徹底比較（＋D Mobile） - Yahoo!ニュース

万能秘書はどのサービス？――「Siri」「しゃべってコンシェル」「音声アシスト」を徹底比較＋D Mobile 8月10日(金)11時8分配信 Siri、しゃべってコンシェル、音声アシストの画面。Siriは起動と同時に音声を入力できる状態になっているが、しゃべってコンシェル、音声アシストはマイクボタンをタッチしてから入力。また、しゃべってコンシェルはテキストで質問を入力したり、時計のアイコンをタッチして入力の履歴を表示したりもできる iPhoneの「Siri」が登場して以来、自然な言葉で話しかけることで、情報を確認したり端末の機能を利用できたりする音声認識アシスタントに注目が集まっている。以前から、話した言葉を認識し、それをテキストに置き換えたりアプリを起動したりするものはあるが、Siriを始めとした最近の人気サービスは、まるで端末の中に秘書かコンシェルジュがいるかのように、コミュニケーシ

rin51 2012/08/10

音声認識

リンク

Speech Recognition HOWTO

rin51 2012/07/26

音声認識

リンク

Amazon.com: Speech Recognition: Theory and C++ Implementation: Becchetti, Claudio, Ricotti, Lucio Prina: Books

rin51 2012/07/26

音声認識

リンク

An Introduction to Speech Recognition

This domain may be for sale!

rin51 2012/07/26

音声認識

リンク

GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

rin51 2012/07/25

音声認識

リンク

輪講発表資料(雑記)

研究室の輪講で時々、簡単な講義みたいなのをやっていました。パワーポイントのプレゼン資料をせっかく作ったのに1度きりで眠らせておくのももったいないのでここに置いておきます。音声・言語の基礎と音声認識パワーポイント資料（2005年度前期）音声認識の研究を始めようと言うチャレンジングな先輩がいたので、一緒に勉強したときの事をまとめました。あと、ちょうどこの時期、（研究とか全然関係なく）比較言語学的なことにはまっていたので、その辺りの話も混ざっています。（というか、半分以上こっちの話だったりします。）参考にした教科書は、鹿野清宏他 (著)、「IT Text 音声認識システム」（オーム社; ISBN: 4274132285）プログラミングのための線形代数パワーポイント資料（2006年度前期）線形代数というと、どんな分野においても使う非常に基礎的な知識で、情報系の分野にお

rin51 2012/07/25

音声認識

リンク

はてなブックマーク

タグ

関連タグで絞り込む (15)

音声認識に関するrin51のブックマーク (16)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス