Google の Cloud Speech-to-Text API で音声認識に加えて、発話者の識別ができるようになったのでこれを利用して以下のように結果を色分けする形で表示してみたいと思います。 なお、今回作成したソースは以下のGitHubのリポジトリに置いてあります https://github.com/ryojiysd/speaker-diarization-sample なお、API 上は入力として最大5名まで対応しているようなのですが、今回のサンプルでは固定で2名としています。 【注意】2019年5月3日現在、Google Cloud の API ドキュメント (https://cloud.google.com/speech-to-text/docs/multiple-voices) によると、speaker diarization は en-US, en-IN, es-ES の