今回も音声認識です。前回は QuartzNet と JSUT データセットで音声→テキスト変換の検証を行いました。今回は問題を音声コマンド認識に簡単化し、自前のデータセットを作成、PCのマイクに話かけてストリーミングでの推論を試します。ついでに JetBot の操縦をしてみましょう。 1. はじめに 今回も 前回 に続いて音声認識です。使用するモデルは前回と同じ QuartzNet ですので、前回を未読の方は 第10回 の記事に目を通して戻ってきて頂けると、より理解がしやすいと思います。前回は音声→テキスト変換の話だったのですが、音声認識モデルを作るとどうしてもマイクに話かけて認識されるかどうか試したくなります。ですが前回の JSUT コーパスは単一女性の声のみですので、私の声が認識できるはずもなく。CSJコーパス1あたりを購入して試しても良いのですが、この連載は読んだ人が試せるようにした
![はじめての自然言語処理 QuartzNet で音声認識 JetBot を試してみる | オブジェクトの広場](https://cdn-ak-scissors.b.st-hatena.com/image/square/4fd2d85a2abdd5cd7431b632bc36def0c0a3d4eb/height=288;version=1;width=512/https%3A%2F%2Fwww.ogis-ri.co.jp%2Fotc%2Fhiroba%2Fimg%2Fhiroba_logo_fb_ogp.png)