Cloud AutoML Vision は、画像とその分類ラベルをクラウドにアップロードするだけで画像認識の機械学習モデルを作成できるサービス。ラーメン二郎のどんぶり画像から 95% 精度で店舗を当てたりできる高性能だけど、機械学習のディープな知識や経験がなくても使える。 で、これでまず試してみたかったのが、音の認識だ。画像じゃなくて音。 2 年くらい前に、画像認識用の CNN を使って音声を認識する論文が Microsoft Research から出てて、へぇーっと思った。スペクトログラムっていう、よく犯罪捜査で出てくる声紋のアレを使って音を画像にして、その模様から音の特徴を認識する。 CNN で音声認識(Microsoft Research)なるほどなあ。。つまり、世の中のどんなデータでも、捉えたい特徴を画像の特徴として表せれば、画像認識で識別できる……ってことだ。 そして、AutoM
![AutoML Vision と RasPi でリビングのいろいろな音を認識する](https://cdn-ak-scissors.b.st-hatena.com/image/square/1a1b1e4e58351500f562b035fc036466feb86afc/height=288;version=1;width=512/https%3A%2F%2Fmiro.medium.com%2Fv2%2Fresize%3Afit%3A1200%2F1%2ADKyY62Phip3z_UHljCCRmA.png)