はじめに 本記事は、東京 Node 学園祭 2012 の LT 枠 - 6番目で発表したデモ内容の紹介になります。スライドは以下になります。(2012/11/25 20:57 貼り間違えたので修正) 構成としては、発表で紹介した Julius の Node.js アドオンから得た音声認識結果を …
はじめに この記事は東京Node学園祭2012 アドベントカレンダーの 23 日目の記事です。 現在、オープンソースの大語彙連続音声認識エンジン Julius を利用して音声による家電操作を行なっているのですが、どんな言葉を認識させるかの文法をゴリゴリ書いたり、コールバックの処理を C++ でゴリゴリ書くのが大変だったので、これらを簡単に実現してくれる Node.js のモジュールをつくってみました。 WEB 関連の話題で扱われることの多い Node.js ですが、C++ でネイティブモジュールを作成することによる Node.js の可能性を感じてもらえれば、と思います。 出来るようになること 以下のように音声認識させる言葉を登録、その文言を Julius が解釈できる形式にコンパイルして、Julius インスタンスを生成、スタートするだけで音声認識が可能になります。 var Julius
はじめに 過去のエントリでは Julius をサーバモードとして動かして結果を取ってきていました。今回からは JuliusLib を利用して直接 Julius を突っ込んでみました。 環境 Ubuntu 10.04 gcc version 4.6.1 20110617 (prerelease) (GCC) Juliusの用意 最新版(2012/02/26現在:Julius-4.2.1)を以下のページからダウンロードしてきます。 ダウンロード - Julius - SourceForge.JP 次に model が含まれる以下の記述文法音声認識実行キットを以下のページからダウンロードしてきます。 /51159/grammar-kit-v4.1.tar.gzをダウンロード - Julius - SourceForge.JP そして次のように配置&ファイルを作成します。 <DIR> julius
今回はOpengazerのデベロッパ用情報をお送りする予定でしたが、OpengazerのREADMEに書いてある以上の情報を探ってないので(=そのへんソース読みしてないので)、それは必要になったらやることにします。 ここしばらくは、Juliusのほうをやってました。 今日は、Juliusの説明とか、Mac OS X 10.6での使い方とか、そのへんやります。 Juliusとは Juliusは、フリーな音声認識システムです。 ざっくり開発者用に箇条書き説明をすると、 ・研究用と言われるが、ちゃんと設定して使えば十分実用レベル ・オープンソースで独自ライセンス(かなり緩いが作成物にライセンスの同梱が必須) ・一部フォーマットの録音物とリアルタイムでの認識が可能 ・自作ソフトウェアへの組み込み用に、コアがライブラリ形式で存在 ・中身は全部C言語 ・設定やカスタマイズ可能な項目膨大 という感じでし
はじめに Mac で Julius を動作させようと思ってやってみました。 環境 Mac OS X 10.8.2 動作までのログ 最新版の Julius は 4.2.2(2012/10/13 現在)となっていて、文法コンパイラの mkfa が字句解析用の flex へのリンクをしないようになったため、flex がサクッと入らない Mac でも問題なくなりました。 変更履歴 (julius - 4.2.2) - Julius - SourceForge.JP 上記 URL から 4.2.2 を落としてきます。で configure して make します。 Ubuntu の時は ALSA を使っていましたが Mac では PortAudio を使うとうまくいくようです。 参考: Julius on Mac OS X 10.6 - 僕の部屋の真ん中らへん PortAudio いれる $ bre
>>> import pyaudio Could not import the PyAudio C module '_portaudio'. Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/usr/local/lib/python3.6/site-packages/pyaudio.py", line 116, in <module> import _portaudio as pa ImportError: dlopen(/usr/local/lib/python3.6/site-packages/_portaudio.cpython-36m-darwin.so, 2): Library not loaded: /usr/local/opt/portaudio/lib/libporta
HTML5でやった音の解析をpythonでもやりたくなって、挑戦してみることにしました。 とりあえず、マイク入力をやってみるべくPyAudioを入れてみる。 pipで入るっぽいので、普通に入れようとしてみる。 Copy $ pip install pyaudio -- 前略 -- ---------------------------------------- Failed building wheel for pyaudio Failed to build pyaudio Installing collected packages: pyaudio Running setup.py install for pyaudio Complete output from command /usr/local/opt/python/bin/python2.7 -c "import setuptoo
なんか 最近やっと暇になったのでなんか書きました。 完全に自分用の備忘録めいた記事なんですけど、こんな適当なの投稿して大丈夫なのかな… 3編併せて文章量だけは多いので暇つぶしにはなるかもしれません 3編に分かれてます この記事は下の2つの記事と連動してるのでそのへんも読むといいとおもいます 準備編:VS2012でPortAudioの環境構築 ←いまここ 前編:PortAudioでWAVEファイルを再生してみる(WAVEファイル読み込み編) 後編:PortAudioでWAVEファイルを再生してみる(鳴らす編) PortAudioってなに フリーの音声処理ライブラリです。 Audacity とかの有名ソフトにも使われてるらしいです。 音声処理ライブラリとは言うもののいわゆるDSP部分(処理部分)は自分で記述する必要があるため、 波形データを直で扱いたい!という人以外には向かないかもしれません。
APIを使った音声認識の精度はなかなか高いのですが、ネット接続が必須なので電力的やコスト的にまだ合わない場面多々。 そこで、Interface 2018.4号で発見、オフラインかつフリーで使える音声認識エンジン「Julius」 読みは、ジュリアス、でした、ユリウスではなく(Thanks < 青木さん) 事前に音声調整をすることなく使え、認識精度もそこそこいい感じ。辞書を自分で作って、その中から認識させることができて使い勝手良し。 ラズパイ0や小型でオフラインのA+などにいれて、IchigoJam連携するモジュールにするのにもいい感じそう! 「テレビ付けて」を認識した様子 on Mac Juliusのインストールから、独自語彙認識させるまでのメモ (for Mac) インストール git clone https://github.com/julius-speech/julius.git cd
2024.7.25(Thu.) Figma Plugin「Bar Chart Generator」を作りました
はじめに 今,音声認識はいろいろなところで使われ始めています. しかし,音声認識をしてみようと思うと意外と難しいのが現状です. 1から作るのは無理だし,GoogleやMicrosoftは音声認識は無料で使おうとすると制限が大きいし...と悩んでいる方も多いと思います. そんな人に最適な,完全フリーのJuliusを使ってみたいと思います. ゴール ・ターミナルからデモを起動し,マイク入力から直接音声認識ができるようになる 事前知識 http://julius.osdn.jp/index.php 音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジン 使う上での利点として,ほぼリアルタイムかつオフラインでも使用できるのが特徴です. Julius自体はあくまで音声認識エンジンであり,音声認識をするには別に音響モデル・言語モデルが必要になる.(それも配布してるよ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く