現状のwhisper、whisper.cpp、faster-whiperを比較してみたいと思います。 openai/whisperに、2022年12月にlarge-v2モデルが追加されたり、色々バージョンアップしていたりと公開からいろいろと進化しているようです。 CPU向けにC/C++で書かれたバージョンです。Core ML supportだそうですので、Mac向け感が強いです。 CTranslate2でWhisperモデルの書き直して、オリジナルと同等の精度で4倍速く、メモリ使用量も少ないそうです。 以降、すべてGoogle Colabで実行しています。 サンプルは、アナウンスの音声(WAV)の場合(48秒)を試しました。 結果 faster-whisperのGPUは噂通り爆速でした。 本家whisperはCPUが速いです。GPUでも初期に比べて85.62s → 23.9sに高速化してま
![whisper、whisper.cpp、faster-whisperの比較](https://cdn-ak-scissors.b.st-hatena.com/image/square/41a4403c37af6fc6c5c2304b6da8753758213308/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--KEEGiXMG--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3Awhisper%2525E3%252580%252581whisper.cpp%2525E3%252580%252581faster-whisper%2525E3%252581%2525AE%2525E6%2525AF%252594%2525E8%2525BC%252583%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3A%2525E3%252581%2525B4%2525E3%252583%2525BC%2525E3%252581%2525BE%2525E3%252582%252593%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyL2RiODU4NjI1MzIuanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)