はじめに 今までコールセンターへの音声認識システムの導入とかに携わってきました。 音声認識の方式には大きく2種類あります。 バッチ型 音声ファイルを渡すと認識した結果が返ってくる コールセンターの通話録音をテキスト化してビッグデータ分析とかで活用できる Youtube動画の自動字幕とかでも使われている。 リアルタイム型(またはストリーミング型) 喋っている音声がリアルタイムで認識されていく。 コールセンターのスーパーバイザが複数のオペレータの音声をモニタリングしたりする場合に活用できる 最近だとAbemaTVで記者会見の生中継とかでAIポンが使われている で、クラウド型の音声認識APIに関しては以下が4強と言われています。 Google Cloud Speech API Microsoft Azure Bing Speech API IBM Watson Speech to Text Am