こんにちは、NI+C大島です。 今回はPython3を使ってGCPで提供されているSTTで音声ファイルのテキスト化を行いたいと思います。 # 概要 GCPのSTTはIBM Watsonで提供されているSTTと違い、音声ファイルの再生時間の長さによって同期処理/非同期処理が分かれています。(利用するAPIが異なる) 基本的に1分以上の音声ファイルは非同期処理によるテキスト化を行います(1分以下でも非同期処理はテキスト化可能ですが同期処理で1分以上の音声ファイルはテキスト化できません) # 概要図 今回の処理概要を絵にすると以下のような形です。 Googleが提供しているSTT/GCSのライブラリーを活用して、テキスト化を行いたい音声ファイルをディレクトリに置いてもらい、プログラム実行時にそのディレクトリを指定すると 再帰的に音声ファイルを抽出して順次アップロード&テキスト化するようなプログラ