やりたいこと:Speechフレームワークで(日本語の)音声認識を行い、その結果を使って動画に字幕を自動でつける。 (このスクショは記事用に参考として適用してみただけです。映像と期待すべき認識結果が画像だけで伝わるかなということで。) Speechフレームワークで音声認識を行う記事は多々あるのでそのへんは省略。動画との連動をどうやるか、認識がなかなかうまくいかないのをどうするか諸々検討したことについて書き留めておく。 動画から音声を抽出SFSpeechRecognizerはバッファを渡してリアルタイムに認識する方法と、音声ファイルを渡してオフライン(※ネットワークの話ではなくて非リアルタイムの意味)で認識する方法がある。今回の用途だと再生のたびに音声認識を回すのはCPUの無駄なので、後者で処理する。 そのために動画から音声データをファイルとして抜き出す。実装方法としては動画のAVAssetオ