今回はWhsiperについてのコードの斜め読みのメモ. ソースコード OpenAI/Whisper https://github.com/openai/whisper 参考文献 本家解説 本家論文 日本語解説 ThothChildrenチャンネルの動画 コード読んでく 上記から transcribe.py 引数のparseなどが終わると、trascribe関数が呼び出される. cpuやgpuの環境を確認したのちに下記のdecodeの部分に来る. ここでは、音声データの最初の30秒をメルスペクトラム変換したのちに、 model,detect_launguageにて各単語の可能性probsを得ている。probsを最大にするlaunguageを取得している。 if decode_options.get("language", None) is None: if not model.is_mult