どうもこんにちは、あんどう(@t_andou)です。 今回はOpenAIの高精度な文字起こしAI「whisper」を試してみました。 ただ試すだけでは面白くないのでもう少し実用的なことを…と言うことで、Youtube用の字幕を作ってみました。 実行環境 使用した動画と結果 まずはモデルごとに精度確認 small 処理時間 結果 所感 medium 処理時間 結果 所感 large 処理時間 結果 所感 使用した動画と結果その2 最後に 実行環境 GoogleColabでGPUはT4でした。 使用した動画と結果 以前、リアルな顔がしゃべるAIを作ったので、その動画を使います。 声もAIによるもののため、僕の耳には聞き取りやすいですが、whisperにとってはどうでしょうか。気になります。 (ちなみに、この動画内で話しているニュースの文章もAIによる生成物です。) www.youtube.co
![高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉](https://cdn-ak-scissors.b.st-hatena.com/image/square/54abd2fdad2428f1d10fa421563134e026e80d4b/height=288;version=1;width=512/https%3A%2F%2Fcdn-ak.f.st-hatena.com%2Fimages%2Ffotolife%2Ft%2Ftakuya0411%2F20220927%2F20220927223005.jpg)