pepper君の音声認識精度がいまいちなので、クラウド音声認識サービスを使って精度向上ができないか試してみました。 NAOqiのドライバでpepperのマイク信号をネットワーク経由で取得し、音声区間のみをクラウドサービスに送ることで音声認識結果を得るという方法です。 Google Speech APIではかなり良い精度で認識できました。NICTの音声認識サービスでもまずまずの精度でした。 サンプルコードをGitHubに公開していますので、お試しください。 注意点 NICTのAPIの利用は、学術研究目的に限られています。詳しくはrospeexのライセンスを参照してください。 Google Speech APIには、1日50回の呼び出し回数制限があります。 動作環境 Ubuntu 14.04.1 LTS 64bit 手元の環境では、Mac OSのVMware Fusionで動かしています RO
![pepperでクラウド音声認識サービスを使う (ROS Indigo, rospeex) - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/b7060684a6a1f554042e1df42cc5a2b34a08f34f/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-9f5428127621718a910c8b63951390ad.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTkxNiZoPTMzNiZ0eHQ9cGVwcGVyJUUzJTgxJUE3JUUzJTgyJUFGJUUzJTgzJUE5JUUzJTgyJUE2JUUzJTgzJTg5JUU5JTlGJUIzJUU1JUEzJUIwJUU4JUFBJThEJUU4JUFEJTk4JUUzJTgyJUI1JUUzJTgzJUJDJUUzJTgzJTkzJUUzJTgyJUI5JUUzJTgyJTkyJUU0JUJEJUJGJUUzJTgxJTg2JTIwJTI4Uk9TJTIwSW5kaWdvJTJDJTIwcm9zcGVleCUyOSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTU2JnR4dC1jbGlwPWVsbGlwc2lzJnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9NzIwOTQzNjE4NDEyMzhjMzAwNGVhOWI3ZTA0YWU0YTk%26mark-x%3D142%26mark-y%3D112%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTYxNiZ0eHQ9JTQwa2l5b3RhLXlvamkmdHh0LWNvbG9yPSUyMzIxMjEyMSZ0eHQtZm9udD1IaXJhZ2lubyUyMFNhbnMlMjBXNiZ0eHQtc2l6ZT0zNiZ0eHQtYWxpZ249bGVmdCUyQ3RvcCZzPTZkNDFkMTYzZjBlODBiNDRjMmYyZGYwNDk1NTYzODFk%26blend-x%3D142%26blend-y%3D491%26blend-mode%3Dnormal%26s%3D179d386cbfb65b8ecfcff0cd332d0849)