タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

音声認識に関するArahabicaのブックマーク (13)

  • Evixar ACR(自動コンテンツ認識)、音センシング | エヴィクサー株式会社 - Evixar Inc.

    Evixar ACR(自動コンテンツ認識)、音センシング 要素技術 Audio Fingerprint(音声フィンガープリント)とは 要素技術 Audio Watermark(音響透かし・音声透かし)とは 非常用放送設備における音響透かし・音声透かし技術の利活用について(JEITA非常用放送設備専門委員会の注意喚起への準拠) SDK(開発キット) スマートフォン(iOS、Android)向け Evixar ACR、テレビ視聴測定向けソリューションについて microACR(R)、IoT(Internet of Things、モノのインターネット分野)、音響通信(音波通信)による近距離通信、Bioacoustic Sensing(生体音センシング)の取り組みについて 各種技術の導入事例 (一部) 要素技術 Audio Fingerprint(音声フィンガープリント)とは 音声フィンガープリン

    Evixar ACR(自動コンテンツ認識)、音センシング | エヴィクサー株式会社 - Evixar Inc.
  • Mashup Award 9でGracenoteのAPIを使ってみよう - 私事ですが……

    はじめに Mashup Awards 9 (MA9)のAPI一覧にGracenoteAPIがあったので(以前のMAにもあった気がするけど)何となくいじってみた。Gracenote音楽のメタデータを扱うサービス。iTunesでも使われている風。 基的には以下のサイトに端的に書いてあるのでこれに従えば使えるのだけれど、いくつか補足なものも含めて記すなど。 GracenoteAPIを試してみた - notes plastiques なお、利用規約に明示されているが、一般に公開されているものは商用利用は不可なので注意。商用利用したい場合はGracenoteに連絡する必要がある。 ※まあ、自分はMA9で使うかどうかわかんないけどねー。 注意 GracenoteのサイトのAPI周りのコンテンツはちょくちょくリンク切れしてるので日語ページでリンク切れしているものは英語ページに行くとよい。 日

    Mashup Award 9でGracenoteのAPIを使ってみよう - 私事ですが……
  • Book/フリーソフトでつくる音声認識システム - 機械学習の「朱鷺の杜Wiki」

    フリーソフトでつくる音声認識システム — パターン認識・機械学習の初歩から対話システムまで† #amazon(4627847114) @Book{book_id, author = "荒木 雅弘", title = "フリーソフトでつくる 音声認識システム — パターン認識・機械学習の初歩から対話システムまで", publisher = "森北出版", year = 2007 }

  • 音声認識のしくみ

    音声認識を紹介するページ とにかくここでは、 だらだらと「音声認識」というモノを紹介します。 全体が(ほぼ)このページ一枚に収まっています。 ところどころにリンクがありますが、 そのリンク先には、 難しい話やこぼれ話みたいなものがちょこちょことあります。 ところで、話を簡単にするために、 ちょっと嘘を混ぜています。 そうでないと、ものすごく複雑な話になるので。 音声認識ってなにさ 簡単に言ってしまえば、 人間が喋った声を機械が文字に直すことです。 図で描くとこんな感じです。 左側が音声波形(つまり、声を図に表している)で、 右側がそれをひらがなに直したものです。 左側の音声波形を少し詳しく見てみる 人間は耳で音を聞きますが、 機械はマイクで音を聞きます。 そして、マイクで収録された音をそのまま表示させると、 下のような感じになります。 横軸が時刻で、縦軸が振幅です。 音声というのは、ようす

  • SPTKの使い方 (1) インストール・波形描画・音声再生 - 人工知能に関する断創録

    SPTK(Signal Processing Toolkit)という音声信号処理のツールの使い方を紹介していきます。 SPTKには、音声を分析するための豊富なコマンドが約120個も提供されています。今までPythonで窓関数、FFT、MFCC、LPCなどを苦労して実装してきました(Pythonで音声信号処理)が、これらの代表的な音声処理は、SPTKで提供されているコマンドを組み合わせるだけで簡単に実行できます。 SPTKには、分厚いマニュアルと豊富なサンプル集がついているのでそれをベースに少しずつ使い方を整理していきたいと思います。今後の音声プロジェクトでも使用していく予定です。 インストール 主にLinuxマシンが対象のツールなのでソースからのコンパイルが必要。WindowsならCygwinやMinGWが必要でした。SPTK-3.5.tar.gzをダウンロードして tar xvzf SP

    SPTKの使い方 (1) インストール・波形描画・音声再生 - 人工知能に関する断創録
  • SPTKの使い方 (6) MFCCの抽出 - 人工知能に関する断創録

    SPTKの使い方 (5)(2012/8/1)の続き。 今回は、音声認識の特徴量としてよく使われるメル周波数ケプストラム係数 MFCC(2012/2/25)をSPTKで抽出してみました。使うコマンドは、mfccです*1。 x2x +sf < data.short| frame -l 640 -p 160 | \ mfcc -l 640 -f 16 -m 12 -n 20 -a 0.97 > data.mfcパラメータの意味は、 -l 640 フレーム長は640サンプル -f 16 サンプリング周波数は16kHz -m 12 MFCCの次元は12次元 -n 20 メルフィルタバンクのチャンネル数は20 -a 0.97 プリエンファシス係数は0.97 です。まあ、-lと-fと-m以外はデフォルトでいいかな?mfccコマンドには、-c 22(リフタリング係数)というオプションもあったのですが、これ

    SPTKの使い方 (6) MFCCの抽出 - 人工知能に関する断創録
  • HTK Speech Recognition Toolkit

    Getting HTK Documentation Mailing Lists Development Links What is HTK? The Hidden Markov Model Toolkit (HTK) is a portable toolkit for building and manipulating hidden Markov models. HTK is primarily used for speech recognition research although it has been used for numerous other applications including research into speech synthesis, character recognition and DNA sequencing. HTK is in use at hund

  • メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14)の第19回目。 今回は、音声認識の特徴量としてよく見かけるメル周波数ケプストラム係数(Mel-Frequency Cepstrum Coefficients)を求めてみました。いわゆるMFCCです。 MFCCはケプストラム(2012/2/11)と同じく声道特性を表す特徴量です。ケプストラムとMFCCの違いはMFCCが人間の音声知覚の特徴を考慮していることです。メルという言葉がそれを表しています。 MFCCの抽出手順をまとめると プリエンファシスフィルタで波形の高域成分を強調する 窓関数をかけた後にFFTして振幅スペクトルを求める 振幅スペクトルにメルフィルタバンクをかけて圧縮する 上記の圧縮した数値列を信号とみなして離散コサイン変換する 得られたケプストラムの低次成分がMFCC となります。私が参考にしたコードは振幅スペクトルを使ってたけど

    メル周波数ケプストラム係数(MFCC) - 人工知能に関する断創録
  • iPhoneアプリでGoogle音声認識が超凄い件 → スマートフォン標準入力は音声になる予感:In the looop:オルタナティブ・ブログ

    当に驚きました! 2009年12月7日にアナウンスされたGoogle音声認識iPhone/Android)の精度です。 Googleからの発表についてはこちらの記事を。 Googleオフィシャルブログ: 音声でGoogle検索 (記事内にダウンロードの方法あり) ITmedia記事: 携帯電話のセンサーとGoogleのクラウドが融合――「Google音声検索」 iPhoneアプリの画面では「音声検索は英語でのご利用になります」とありますが,日語もバッチリです。 というか相当すごい精度です! 詳しくはこの動画にて。開発者自ら日語で説明されてます。 例えば試してみて一発入力できたのは 「ITメディア」 「2009年12月7日」 「履歴事項全部証明書」 「馬喰町から新宿三丁目まで」 「西野カナ」 「菅原紗由里」 「すもももももももものうち」 「@コスメ」 「avril lavigne」(

    iPhoneアプリでGoogle音声認識が超凄い件 → スマートフォン標準入力は音声になる予感:In the looop:オルタナティブ・ブログ
  • 第3章 音声データ入力

    入力のサンプリングレート (Hz) は,オプション -smpFreq あるいは -smpPeriod で指定できる.また, -htkconf で HTK Config ファイルを与えた場合,その中の SOURCERATE の値からセットされる.無指定時のサンプリングレートのデフォルトは 16,000 Hzである. 使用する音響モデルの学習条件に合わせてサンプリングレートを設定する必要がある.入力のサンプリングレートが音響モデルの学習データのレートと一致しない場合,うまく認識できない.たとえば,使用する音響モデルが16kHz のデータで学習されたものである場合,Juliusが取り込む音声入力も 16kHz である必要がある. また,複数の音響モデルを用いる場合,すべての音響モデルに対して同一のサンプリングレートをそれぞれ指定する必要がある.これは,複数の音響モデルは一つの音声入力を共有するた

  • JuliusとJulian - Miyazawa’s Pukiwiki 公開版

    はじめに † 以下を実行する前に、Cygwin と、Perlの実行環境 のインストールをすませておきます。 任意 : Cygwinのbinフォルダのパスを環境変数に加えておくと、コマンドプロンプトから使えるので便利です。 任意の場所(たとえば、Cygwinのホームディレクトリ直下)に Juliusフォルダを作っておきます(以下「JULIUS/」)。 ↑ 基セット(バイナリ) † Juliusの基プログラム、コンパイル済み 設定ファイルで多くの設定を変えられるので、たいていの場合バイナリで大丈夫のはず。 Julius 公式 から、まずは Windows版Juliusのバイナリファイル をダウンロードして解凍します。 julius-4.1.2-win32bin.zip(2009年10月20日時点)をダウンロードしました。 Juliusフォルダに、解凍したjulius-4.1.2-win32

  • GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.

    GitHub - julius-speech/julius: Open-Source Large Vocabulary Continuous Speech Recognition Engine
  • Start | 和歌山大学メディアインテリジェンス研究室

    和歌山大学メディアインテリジェンス研究室(西村竜一研究室)† 研究室では、音声や画像、動画、自然言語、センサなどの「メディア」を活用した認識・理解の知的技術によって、人と人、人と機械の協働を豊かなものにするための教育・研究を行います。 2019年度から活動している研究室です。 研究室の学部生は、システム工学部 メディアデザインメジャーに所属しています。大学院生の所属は、システム工学研究科 知的モデリングクラスタです。 なお、研究室は、西村が所属(担当)するデータ・インテリジェンス教育研究部門及び学生自主創造支援部門(クリエ)とも協働することで教育・研究活動を進めています。 今後は、社会インフォマティクス学環の学生の受入も行う予定です。 ↑ お知らせ† 2023/12/9 大学院生(M2)の日田さんが国立研究開発法人情報通信研究機構(NICT)の研究員みなさまと共著で発表した『複数話者

  • 1