Cloud AutoML Vision は、画像とその分類ラベルをクラウドにアップロードするだけで画像認識の機械学習モデルを作成できるサービス。ラーメン二郎のどんぶり画像から 95% 精度で店舗を当てたりできる高性能だけど、機械学習のディープな知識や経験がなくても使える。 で、これでまず試してみたかったのが、音の認識だ。画像じゃなくて音。 2 年くらい前に、画像認識用の CNN を使って音声を認識する論文が Microsoft Research から出てて、へぇーっと思った。スペクトログラムっていう、よく犯罪捜査で出てくる声紋のアレを使って音を画像にして、その模様から音の特徴を認識する。 CNN で音声認識(Microsoft Research)なるほどなあ。。つまり、世の中のどんなデータでも、捉えたい特徴を画像の特徴として表せれば、画像認識で識別できる……ってことだ。 そして、AutoM
2017年、米Googleや米Amazonなどの「スマートスピーカー」と呼ばれるデバイスの普及が日本で始まった。例えば、「ねえGoogle、今日の予定は?」と話しかけると、カレンダーアプリに入力していた予定を流ちょうな日本語で読み上げてくれる。中に人がいるわけではない。デバイスが人の声を認識し、応答となる声を合成しているのだ。 このデバイスが音声で応答するために使用しているコアの技術は、「音声認識」と「音声合成」という2つの技術だ。音声認識は人の声の波形を機械で処理し、どんな文であったかを推定する技術。音声合成は与えられた文やデータから、人が話す音声を合成する技術だ。 ここに、音声認識で推定した文に対して適切な応答文を出力する「対話制御」という技術が加わり、「人の話を聞いて適切な応答を音声で返す」という一連の動作を実現している。 音声認識・合成ともに、コンピュータを利用した研究は1950年
Kaldiとは C++で書かれた音声認識ツールキットで、Apache Licence 2.0で公開されています。 音響モデルにDNN (Deep Neural Network) を用いているのが特長です。 http://kaldi-asr.org/ 今回はKaldiを動作させ、yesかnoの音声を判別するモデルを学習させてみます。 環境 Vagrant上のUbuntu 16.04 LTSを用いています。 $ cat /etc/lsb-release DISTRIB_ID=Ubuntu DISTRIB_RELEASE=16.04 DISTRIB_CODENAME=xenial DISTRIB_DESCRIPTION="Ubuntu 16.04.1 LTS" $ uname -a Linux vagrant 4.4.0-31-generic #50-Ubuntu SMP Wed Jul 13
GoogleがGCP NEXT 2016で、Googleの使うクラウドベースの機械学習プラットフォーム「Cloud Machine Learning」を公開。アプリ開発者が自社のサービスで強力な機械学習機能を利用できるようにしました。 Google Cloud Platform Blog: Google takes Cloud Machine Learning service mainstream https://cloudplatform.googleblog.com/2016/03/Google-takes-Cloud-Machine-Learning-service-mainstream.html Google Cloud Machine Learning at Scale — Google Cloud Platform https://cloud.google.com/produc
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く