[B! 音声認識][あとで読む] witchstyleのブックマーク

witchstyle id:witchstyle

音声認識とあとで読むに関するwitchstyleのブックマーク (13)

グーグルの書き起こし機能「音声文字変換（Live Transcribe）」の秘密を聞く
witchstyle 2019/03/29
(2019/03/28の記事)

音声処理

音声認識

機械学習

技術動向

資料

あとで読む
リンク
AutoML Vision と RasPi でリビングのいろいろな音を認識する
Cloud AutoML Vision は、画像とその分類ラベルをクラウドにアップロードするだけで画像認識の機械学習モデルを作成できるサービス。ラーメン二郎のどんぶり画像から 95% 精度で店舗を当てたりできる高性能だけど、機械学習のディープな知識や経験がなくても使える。で、これでまず試してみたかったのが、音の認識だ。画像じゃなくて音。 2 年くらい前に、画像認識用の CNN を使って音声を認識する論文が Microsoft Research から出てて、へぇーっと思った。スペクトログラムっていう、よく犯罪捜査で出てくる声紋のアレを使って音を画像にして、その模様から音の特徴を認識する。 CNN で音声認識（Microsoft Research）なるほどなあ。。つまり、世の中のどんなデータでも、捉えたい特徴を画像の特徴として表せれば、画像認識で識別できる……ってことだ。そして、AutoM
witchstyle 2019/01/09
(2018/01/08公開のエントリ) ラズパイで拾った音を sox でスペクトグラムに変換し、それを画像として AutoML Visonに学習させて、音声認識に利用する。

機械学習

音声認識

画像認識

技術動向

ノウハウ

プログラミング

あとで読む

資料
リンク
HEARTalk UU-001であの子とおしゃべり - はいぬっかメモ
HEARTalk™ UU-001 ふあーーーHEARtalkめっちゃたのしいです！！テレル！！(音源については個人的な楽しみのためのあれなのでご容赦ください…) pic.twitter.com/cQf1YGfhiF — はいぬっか (@hinzka) 2017年6月21日ヤマハ株式会社が開発した自然応答技術の呼称が「HEARTalk™」（ハートーク）これを搭載した基板が『HEARTalk™ UU-001』です。体験者が発話する内容の「音律」・「長さ」・「語尾変化（上げ下げ）」を自動的に判断し、対応する音声データを選択して機敏に再生します。音源にはwavファイルを使っていて、ユーザーが自由に差し替えることができます。つまりこれを使うと、任意の「声」ときわめて自然な雰囲気で対話することができてしまうのです。これはヤバイ。詳しくはこちら www.dtmstation.com やったこ
witchstyle 2017/06/27
あとで読む

音声認識

音声対話
リンク
Raspberry Piで音声認識・音声合成する方法（Raspbian Stretch/Jessie対応） - karaage. [からあげ]
Raspberry Piで音声認識・音声合成 Raspberry Piで音声認識・音声合成をする方法です。基本的にはほぼネットで調べたことそのままですが、バージョンなどの関係で、自分の環境ではそのままじゃダメなところ等あったので、自分の備忘録としてまとめておきます。参考にしたサイトは参考リンクにまとめました。2017年6月時点ではこの記事の方法でそのまま動くはずです。 Raspberry PiはRaspberry Pi 2/Raspberry Pi 3、OSはRaspbian Jessieを想定しています。 Raspberry Piの基本セットアップ Raspberry Piの基本的なセットアップは済んでいる前提です。セットアップに関しては、以下記事を参照ください。音声認識するためには、Raspberry Piに音声入力する必要がありますが、Raspberry Piには標準でマイクがつい
witchstyle 2017/06/12
あとで読む

音声認識

Raspberry Pi

音声合成
リンク
iPhoneと発泡スチロールでけものフレンズに出てくるぼすてきな何かを作った時の技術的な記録 – なんてこったい
経緯や詳細は下記の記事に書いたのだが、けものフレンズというアニメに出てくるボス(ラッキービースト)というロボットみたいな何かをiPhoneで作ってみた。至極簡易的ではあるものの、はじめてロボット/AI的なものを自分で作ってみて色々と技術的にも学んだことが多かったので、ここに書き記しておこうと思う。今回のシステムの全体像アニメに出てくるラッキービーストは、いわゆる汎用人工知能(強いAI)なのだが、さすがにそれを実現するのは難しいので、今回は「モノを見せると、それについて教えてくれる」人工無脳的な実装をすることにした。大まかなシステムの流れはこんな感じ。音声認識で「これなんだかわかりますか?」的な質問をされたことを検知するカメラを使って、目の前の様子を撮影する撮影した画像から物体を検出する検出した物体について、Wikipediaで情報を調べる適当に文章にして音声合成で喋る一
witchstyle 2017/05/07
(2017/05/07のエントリ) iOS 10からSFSpeechRecognizerという音声認識APIが提供されていたため、これを使った。

あとで読む

音声認識

音声対話

プログラミング

資料

iOS
リンク
もう珍回答に笑えない？　AI音声アシスタントがセキュリティ上の脅威になる予兆
日本では未発売なので知らない方も多いと思いますが、米GoogleはAI音声アシスタントの「Google Assistant」が備わったスマートホームデバイス「Google Home」を米国で販売しています。 Google Homeとは、音声で呼びかけることで、音楽の再生、クラウドサービスやネット検索と連携してのさまざまな質問への回答、スマート家電の操作などが行える家庭向けのアシスタントデバイスです。ディスプレイがなく、音声のやりとりで全ての操作を行えるため、リビングに置いておけば、家族みんなで（PCやスマートフォンが不得意な人がいても）手軽に使えます。「OK Google」と呼びかければ、誰の言うことでも聞いてくれる優れモノです。そんなGoogle Homeの仕様を自社の広告に利用してしまおうと、米ファストフードチェーンのBurger Kingが4月12日（現地時間）のゴールデンタイム
witchstyle 2017/04/16
(2017/04/16の記事) 音声認識デバイスがTVCMの音声に反応して動作した事故から推測される課題

あとで読む

音声認識

事故

考察

セキュリティ
リンク
Creators UpdateでWindows 10 IoT CoreがRaspberry Pi 3に正式対応～コルタナを使った音声アシスタントも利用可能に
witchstyle 2017/04/11
(2017/04/11の記事)

あとで読む

音声対話

音声認識

音声合成

産業動向
リンク
258億語の日本語コーパスをウェブで公開～国立国語研究所　言語研究や自然言語処理技術開発での基礎資料
witchstyle 2017/03/06
(2017/03/06の記事) 検索システム「梵天」一般公開版では、この258億のコーパスに対する文字列検索が行える。また、高機能版では、動詞や名詞などの品詞や、主語－述語関係などの係り受けを使った詳細な検索が行える。

あとで読む

自然言語処理

機械学習

音声認識

資料

Webサービス
リンク
対話システムにおけるインタラクション　技術のこれまでとこれから：携帯機器での音声情報検索案内システムを例として(南泰浩)
これまでタスク達成型システム大規模データベース＋タスク達成型システムしゃべってコンシェル，CALO(Siriの基になったプロジェクト）題材にこれから非タスク達成型対話各手法の比較感情の流れの把握東ロボを題材にまとめRead less
witchstyle 2017/02/10
(2015/03/06公開のスライド)

あとで読む

対話システム

自然言語処理

音声対話

音声認識

音声合成

研究動向
リンク
Amazon Echoを持っていなくてもAmazon Alexaの音声認識技術を試す方法 | DevelopersIO
こんにちは、せーのです。先日、AWS Summit Tokyoも盛況のうち無事終わり、だいぶ日常業務に戻ってきた感があります。今日は音声認識の話題です。タッチの次はボイス AWS SummitではDevOps、IoT、サーバレスアーキテクチャあたりの話題が盛況でしたが、"次の波"として注目されていたのが音声認識技術についての話題でした。 Amazonでは既に「Amazon Echo」という音声認識によるアシスタントデバイスが売りだされ、アメリカで大人気となっています。他にもIBMの「Watson」やAppleの「Siri」、Googleの「Google now」やMicrosoftの「Cortana」等、キーボードからタッチに移り始めたデバイス入力方法の次は声による入力、という見方が大勢となっています。AWS Summit TokyoでもAmazonの自然言語応答サービスであるAVS(
witchstyle 2017/01/17
(2016/06/09のエントリ) AVS(Amazon Voice Service)という自然応答サービスが提供されており、Alexa相当のデバイスを作成できる。

あとで読む

音声認識

音声対話

プログラミング
リンク
Raspberry PiとSiriで家電の音声制御　前書き | MUDAなことをしよう。
2016年6月4日最近いろいろ遊び過ぎたので、しばらくは真面目というか、比較的実用的な記事を書いていこうと思います。 Amazon EchoやらGoogle Homeやら、最近だとAppleまで同じような端末を開発しているという噂もあったりして、なんだか音声アシスタント端末？が盛り上がっているようです。でも結構お値段もするし、そもそも日本だとまだ全然モノ自体がないので、ここは一発自作して、「音声アシスタント端末」とやらがある生活を先行的に評価してみたいと思います（既にやっている人はたくさんいそうですが）。電子工作における音声認識だと、一昔前はRaspberry Pi+Juliusがよくある手段だったかなと思います。スタンドアロンで動くし無料だし、というのはとても魅力なのですが、過去に自分も使ってみた感じでは、なかなか使いこなすのは難しいなあという印象でした。安定して認識させようと思った
witchstyle 2017/01/07
(2016/06/04のエントリ) homebridgeを使って、HomeKit機器をエミュレーションする。

あとで読む

音声認識

ノウハウ

プログラミング
リンク
トヨタの会話ロボット「KIROBO mini」(キロボミニ)の秘密～じっくり見てきた～特長としくみ、技術仕様のまとめ - ロボスタロボスタ - ロボット情報WEBマガジン
TOP > コラム > ニュース > トヨタの会話ロボット「KIROBO mini」(キロボミニ)の秘密～じっくり見てきた～特長としくみ、技術仕様のまとめ
witchstyle 2016/10/13
(2016/10/11の記事)

あとで読む

ロボット

技術動向

音声認識

画像認識
リンク
Googleが自社で使っている「クラウド機械学習」を一般に開放、こんなスゴイことが簡単にできる
GoogleがGCP NEXT 2016で、Googleの使うクラウドベースの機械学習プラットフォーム「Cloud Machine Learning」を公開。アプリ開発者が自社のサービスで強力な機械学習機能を利用できるようにしました。 Google Cloud Platform Blog: Google takes Cloud Machine Learning service mainstream https://cloudplatform.google blog.com/2016/03/Google-takes-Cloud-Machine-Learning-service-mainstream.html Google Cloud Machine Learning at Scale — Google Cloud Platform https://cloud.google.com/produc
witchstyle 2016/03/24
(2016/03/24の記事) 画像分析API「Cloud Vision API」 / 音声認識用API「Cloud Speech API」

あとで読む

機械学習

クラウド

音声認識

画像認識
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx