Explore and run machine learning code with Kaggle Notebooks | Using data from Freesound Audio Tagging 2019
HARK is open-sourced robot audition software consisting of sound source localization modules, sound source separation modules and automatic speech recognition modules of separated speech signals that work on any robot with any microphone configuration. Since a robot with ears may be deployed to various auditory environments, the robot audition system should provide an easy way to adapt to them. HA
ブラウザ経由でRaspberry Piと会話してみました。 環境 Raspberry Pi2 ModelB (raspbian-wheezy・Node.js v4.2.4) PLANEX 無線LAN子機 (USBアダプター型) GW-USNANO2A (FFP) サンワサプライ USBスピーカー(ブラック) MM-SPU8BK ASUS Chromebook C300MA-WHITE こちらからの発話認識はRaspberry Piでは行わず、HTML5のWeb Speech Recognized API を利用します。Androidがあれば良いのですが持ち合わせがないので今回はChromebookを利用しました。 (もちろんMac、PCのChromeブラウザから利用出来ます。というかChromeしか対応していません。) インストールなど 基本前回投稿(Raspberry Pi をNode.
//パッケージの読み込み許可 var express = require('express'); var ejs = require("ejs"); var VoiceText = require('voicetext'); var Sound = require('node-aplay'); //ファイル読み込み許可 var fs = require('fs'); //ブラウザ操作用のejsファイルのレダリング var app = express(); app.engine('ejs',ejs.renderFile); app.get('/', function(req, res){ res.render('talk.ejs', {title: 'Raspberry Pi Talk'}); }) //合成音声の読み込みとwavファイル作成・再生 var voice = new Voice
いきさつ 少し前にタ○ラト○ーのおもちゃハッカソンに申し込んだのですが、抽選に受からず。。。 「ならば自力でOH○NASの対抗馬を作ってやる!」と思いたったのがきっかけで、簡易会話ロボをRasタソを作ってみました。笑 (*実際の人物や団体等とは一切関係ありません) やりたい事 ・マイクからの音声入力に対して、合成音声で返答をする O○aN○Sもどきの作成 スペック ・Raspberry Pi B+ ・raspbian 8 Jessie ・SANWA SUPPLY MM-MCUSB16 USBマイクロホン ・イヤフォンはiphoneのやつ 役者 ・requests (PythonのHTTPライブラリ) ・pyaudio (pythonでマイク入力) ・AquesTalkPi (合成音声) ・docomo雑談API (会話するためのAPI) ・docomo音声認識API (音声を認識してTEX
// soxインストール $ brew install sox // 音声録音 $ rec --encoding signed-integer --bits 16 --channels 1 --rate 16000 <出力ファイル名(test.wav)> // flac形式に変換(flac形式のファイルが作られる(test.flac)) $ flac -V <変換するファイル(test.wav)> // google speech APIで音声認識 $ curl -X POST \ --data-binary @'<ファイル名>' \ --header 'Content-Type: audio/x-flac; rate=16000;' \ 'https://www.google.com/speech-api/v2/recognize?output=json&lang=ja-JP&key=<
Microphone' by Juan_Alvaro, http://www.flickr.com/photos/31590610@N03/5408706936/ CC by 2.0 最近、にわかに音声認識というものが盛り上がっています。 スマートフォンに搭載されている、AppleのSiri、NTTドコモのしゃべってコンシェル、Googleの音声検索あたりが有名ですが、お掃除ロボやエアコン、カーナビといった家電にも音声認識機能が搭載されるようになってきました。 認識の精度や意識の問題(人前で機械に話しかけるのはちょっと恥ずかしい)などの課題はありますが、音声認識はアプリや家電のUIの一部としてこれから普及していくと思われます。 ですが、一般の開発者にとって音声認識機能を自分のアプリやウェブサイトに組み込むのはまだまだ難しいです。 Juliusのようなオープンソースの音声認識システムもありま
音声認識システムでJuliusは日本語では有名だが、DNN(ディープ・ニューラルネットワーク)を用いて音声認識を行っているKaldiに関しては日本語のドキュメントが整備されていない。 備忘録も込めて、Kaldiの初期インストールから実践までをまとめてみた。 Kaldiインストール Kaldiをインストールする前に準備が必要なので、予めインストールしておくべきライブラリ一覧を下記に示す。 build-essential gfortran libgfortran3 python-dev(python3-dev) libblas-dev libatlas-base-dev cython g++ zlib1g-dev automake libtool autoconf
変更履歴: デモ用軽量版スクリプトを更新 2016/9/30 2016年2月にSLP研究会でチュートリアルを行った際の資料を元に作成 2016/2/21 公開 1. はじめに 本実習は,日本語話言葉コーパスCSJを用いたKaldi用大語彙日本語音声認識レシピ(CSJ Kaldi レシピ)の動作を理解することを目的としています. Kaldiのレポジトリから一般公開している実際のレシピの実行にはGPUを用いた大規模な計算が必要となるため, 本実習では手軽に試せるよう軽量版レシピを用意しました. 本実習に取り組むことで, 1)CSJデータベースのデータを音声認識システムの学習に適したフォーマットに変換し, 2)GMMを用いた状態共有triphoneを学習し, 3)さらにDNNを用いた音響モデルを作成し, 4)それらを用いた音声認識を実行し, 5)評価スコアとして単語誤り率を計算する までの手順に
音声認識には音の情報を知覚するための音響モデル、言語情報を知覚するための言語モデルが必要 1.音響モデル -最低必要なもの --音響モデルには音声データと音素との対応付がされた辞書が必要 -あったらベター --書き起こし文 --音声に関する付随情報(発話開始時間、発話終了時間、話者、アクセント、モーラなど) 2.言語モデル -最低必要なもの --生のテキストデータ -あったらベター --品詞情報が付与されているコーパス --構文解析木つきのコーパス --対訳付きのコーパス --機械翻訳や対話などの自然言語理解の研究を進めるのにタグ情報 --見出し語とその読みと品詞を集めた語彙目録ないし単語・形態素一覧表 --語が複数の意味を持つ場合の語義の説明、格パターンを集めた辞書にする コーパスに関して、値段と質から勝手に選別してみた(今回は対話にフォーカスしています) 質に関しては個人の主観が入って
論文を調べていたらinterspeech2009で感情認識のChallengeが行われていた。 そこで、使われているのがopenSMILEという特徴量抽出用のプログラム。 いろいろな音声認識、音楽認識、などなどで用いられる特徴量ががっつり計算できる上にWEKA用のarffでも書き出せるようにしているらしい。 というか、2009年でも一つの音声ファイルに対して384次元の特徴ベクトルを計算してくれる。 2010年用だと1000超えてたり、なんかすごいことになってる気もする。 ちなみに、binで落としてもlinux/windows両方の実行ファイルが入ってるのでそちらが楽ではある。 SSE対応や64bit対応もしてるし。 でも、やっぱりソースからコンパイルしてみたい。 コンパイルはbookを見るとスクリプト一発だぜーと書いてあるような気がしたのだが、よく見たら細かい手順が書いてあった。 ダウン
最近、スマホ制御や音声制御できる家電が話題になっているで低価格かつ比較的簡単に構築できるか試してみました。 iRemoconなど便利な製品も出ているのに何故自作かといいますと。。。 失礼ながらこの製品がお高いのと、将来的な機能拡張を考えると圧倒的に自作に分があると考えたからです。 簡単な解説動画を制作してみました 達成目標 スマホ等からリモートで操作できること 音声だけで何も触れずに操作できること なるべく低価格で構築すること なるべく単純なスクリプトで実装すること 自宅サーバを構築しているような感覚で構築できること ハードウエア Raspberry Pi Type B USB接続 赤外線リモコンキット GW-USValue-EZ(無線LAN子機) TEMPer V23.5(温度計) MM-MCUSB21BK(マイク) MS-UP201BK(スピーカー) U2H-EG4SWH(セルフパワ
ルールベースの julius と精度についてです。 ルールベースの julius は、やたらに過剰マッチを繰り返します。 そこで、SAPIでやったように、認識率で重しをつけます。 一応、score や confidence(cmscore)などがあるのでそれで判断できそうに思えます。 が、実際やってみると、うまくいきません。 ケーキ食べたい (ケーキ)(ください) または、(ケーキ)(食べたい) といった音声認識パータンを作ってみます。 いろいろ喋ってみて様子を観察しましょう。 動くサンプルは、このサンプルキットの grammar-kit-v4.2-win\cake です。 0 [</s>] silE 1 [<s>] silB 4 [ケーキ] k e: k i 5 [ください] k u d a s a i 5 [たべたい] t a b e t a i ケーキください ケーキ食べたい ケーキ
マイク MMDAgentの音声認識を利用する場合に必要になります。 USBタイプや3.5㎜ステレオミニプラグのどちらでも使用できます。 KinectやWebカメラのマイクを使用することもできます。 マイクを使用しなくても動作させることはできます。 MMDAgent_win32-1.3.1 ダウンロード:http://www.mmdagent.jp/ MMDAgentの本体になります。 「Binary Package (for 32-bit Windows)」から MMDAgent_win32-1.3.zip をダウンロードしてください。 MMDAgent_Example-1.3.1 ダウンロード:http://www.mmdagent.jp/ MMDAgentのサンプルスクリプトになります。 「Binary Package」から MMDAgent_Example-1.3.zip をダウンロ
はじめに 本記事は、東京 Node 学園祭 2012 の LT 枠 - 6番目で発表したデモ内容の紹介になります。スライドは以下になります。 (2012/11/25 20:57 貼り間違えたので修正) 構成としては、発表で紹介した Julius の Node.js アドオンから得た音声認識結果を Socket.io 経由でクライアント(ブラウザ)へ送り、mmd.gl.enchant.js で表示しているミクさんを動かす、という形になります。イメージとしては、MMDAgent みたいなことが出来る感じです。 デモ内容 話しかけると考えこんで、解釈するとお辞儀しながらふきだしで解釈した内容を表示してくれるようにしています。 リモコンとつなぎこめば実際に家電が操作されます。 mmd.gl.enchant.js の導入 参考 スモールオメガω - エントランス まず、enchant.js 本家から
今年の目標(2011/1/1)の1つに音声認識技術の深耕というのを立ててます。いきなり音声認識をやるのは知識不足でかなり大変だということが分かったので、まずは音声のいろんな性質や信号処理の技術を一つ一つ試しながら習得していくことにしました。 音声信号処理ではよくMatlabが使われるようなのですが、 Matlabは高くて買えない(フリーのOctaveってのもあります) すでに使っているPython、Rと文法が似ていて混乱する というわけでMatlabはやめてPythonを使います。SciPyにフーリエ変換の機能があったのでたぶん同じようなことができるでしょう。Pythonのいろんな音声関係のライブラリなんかも紹介できればと思います。 当面の目標は、簡単な類似楽曲検索システムを作ることです。その後は、いろんなツール(HTKなど)を駆使して音声認識システムを作りたいと思ってます。 このページは
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く