Cloud AutoML Vision は、画像とその分類ラベルをクラウドにアップロードするだけで画像認識の機械学習モデルを作成できるサービス。ラーメン二郎のどんぶり画像から 95% 精度で店舗を当てたりできる高性能だけど、機械学習のディープな知識や経験がなくても使える。 で、これでまず試してみたかったのが、音の認識だ。画像じゃなくて音。 2 年くらい前に、画像認識用の CNN を使って音声を認識する論文が Microsoft Research から出てて、へぇーっと思った。スペクトログラムっていう、よく犯罪捜査で出てくる声紋のアレを使って音を画像にして、その模様から音の特徴を認識する。 CNN で音声認識(Microsoft Research)なるほどなあ。。つまり、世の中のどんなデータでも、捉えたい特徴を画像の特徴として表せれば、画像認識で識別できる……ってことだ。 そして、AutoM
HEARTalk™ UU-001 ふあーーーHEARtalkめっちゃたのしいです!!テレル!!(音源については個人的な楽しみのためのあれなのでご容赦ください…) pic.twitter.com/cQf1YGfhiF — はいぬっか (@hinzka) 2017年6月21日 ヤマハ株式会社が開発した自然応答技術の呼称が「HEARTalk™」(ハートーク) これを搭載した基板が『HEARTalk™ UU-001』です。 体験者が発話する内容の「音律」・「長さ」・「語尾変化(上げ下げ)」を自動的に判断し、対応する音声データを選択して機敏に再生します。 音源にはwavファイルを使っていて、ユーザーが自由に差し替えることができます。 つまりこれを使うと、任意の「声」ときわめて自然な雰囲気で対話することができてしまうのです。これはヤバイ。 詳しくはこちら www.dtmstation.com やったこ
Raspberry Piで音声認識・音声合成 Raspberry Piで音声認識・音声合成をする方法です。基本的にはほぼネットで調べたことそのままですが、バージョンなどの関係で、自分の環境ではそのままじゃダメなところ等あったので、自分の備忘録としてまとめておきます。参考にしたサイトは参考リンクにまとめました。2017年6月時点ではこの記事の方法でそのまま動くはずです。 Raspberry PiはRaspberry Pi 2/Raspberry Pi 3、OSはRaspbian Jessieを想定しています。 Raspberry Piの基本セットアップ Raspberry Piの基本的なセットアップは済んでいる前提です。セットアップに関しては、以下記事を参照ください。 音声認識するためには、Raspberry Piに音声入力する必要がありますが、Raspberry Piには標準でマイクがつい
経緯や詳細は下記の記事に書いたのだが、けものフレンズというアニメに出てくるボス(ラッキービースト)というロボットみたいな何かをiPhoneで作ってみた。 至極簡易的ではあるものの、はじめてロボット/AI的なものを自分で作ってみて色々と技術的にも学んだことが多かったので、ここに書き記しておこうと思う。 今回のシステムの全体像 アニメに出てくるラッキービーストは、いわゆる汎用人工知能(強いAI)なのだが、さすがにそれを実現するのは難しいので、今回は「モノを見せると、それについて教えてくれる」人工無脳的な実装をすることにした。 大まかなシステムの流れはこんな感じ。 音声認識で「これなんだかわかりますか?」的な質問をされたことを検知する カメラを使って、目の前の様子を撮影する 撮影した画像から物体を検出する 検出した物体について、Wikipediaで情報を調べる 適当に文章にして音声合成で喋る 一
日本では未発売なので知らない方も多いと思いますが、米GoogleはAI音声アシスタントの「Google Assistant」が備わったスマートホームデバイス「Google Home」を米国で販売しています。 Google Homeとは、音声で呼びかけることで、音楽の再生、クラウドサービスやネット検索と連携してのさまざまな質問への回答、スマート家電の操作などが行える家庭向けのアシスタントデバイスです。 ディスプレイがなく、音声のやりとりで全ての操作を行えるため、リビングに置いておけば、家族みんなで(PCやスマートフォンが不得意な人がいても)手軽に使えます。「OK Google」と呼びかければ、誰の言うことでも聞いてくれる優れモノです。 そんなGoogle Homeの仕様を自社の広告に利用してしまおうと、米ファストフードチェーンのBurger Kingが4月12日(現地時間)のゴールデンタイム
これまで タスク達成型システム 大規模データベース+タスク達成型システム しゃべってコンシェル,CALO(Siriの基になったプロジェクト)題材に これから 非タスク達成型対話 各手法の比較 感情の流れの把握 東ロボを題材に まとめRead less
こんにちは、せーのです。先日、AWS Summit Tokyoも盛況のうち無事終わり、だいぶ日常業務に戻ってきた感があります。 今日は音声認識の話題です。 タッチの次はボイス AWS SummitではDevOps、IoT、サーバレスアーキテクチャあたりの話題が盛況でしたが、"次の波"として注目されていたのが音声認識技術についての話題でした。 Amazonでは既に「Amazon Echo」という音声認識によるアシスタントデバイスが売りだされ、アメリカで大人気となっています。他にもIBMの「Watson」やAppleの「Siri」、Googleの「Google now」やMicrosoftの「Cortana」等、キーボードからタッチに移り始めたデバイス入力方法の次は声による入力、という見方が大勢となっています。AWS Summit TokyoでもAmazonの自然言語応答サービスであるAVS(
2016年6月4日 最近いろいろ遊び過ぎたので、しばらくは真面目というか、比較的実用的な記事を書いていこうと思います。 Amazon EchoやらGoogle Homeやら、最近だとAppleまで同じような端末を開発しているという噂もあったりして、なんだか音声アシスタント端末?が盛り上がっているようです。でも結構お値段もするし、そもそも日本だとまだ全然モノ自体がないので、ここは一発自作して、「音声アシスタント端末」とやらがある生活を先行的に評価してみたいと思います(既にやっている人はたくさんいそうですが)。 電子工作における音声認識だと、一昔前はRaspberry Pi+Juliusがよくある手段だったかなと思います。スタンドアロンで動くし無料だし、というのはとても魅力なのですが、過去に自分も使ってみた感じでは、なかなか使いこなすのは難しいなあという印象でした。安定して認識させようと思った
GoogleがGCP NEXT 2016で、Googleの使うクラウドベースの機械学習プラットフォーム「Cloud Machine Learning」を公開。アプリ開発者が自社のサービスで強力な機械学習機能を利用できるようにしました。 Google Cloud Platform Blog: Google takes Cloud Machine Learning service mainstream https://cloudplatform.googleblog.com/2016/03/Google-takes-Cloud-Machine-Learning-service-mainstream.html Google Cloud Machine Learning at Scale — Google Cloud Platform https://cloud.google.com/produc
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く