Whisperは、ChatGPTで知られるOpenAIによって開発された非常に正確な音声認識モデルで、会話の音声をテキストに書き起こしてくれる。 100万時間以上のデータでトレーニングされた最新のAIモデルだが、驚くべきことにオープンソースで公開されているため、誰でも、無料で、簡単に利用することができる。 有料の音声書き起こしサービス・議事録書き起こしサービスは数多くあるが、実は無料のWhisperを使えば十分だ。 むしろ、Whisperの方が殆どの音声認識ソフトより精度が高いだろう。 とはいえ、プログラミングの知識がない人にとっては、少し利用するハードルがある。 そこで、Whisperの最新モデル(Whisper v3)を、簡単に使える小さなWebアプリにしてみたので、この記事で使い方を紹介する。 Whisperを、Google ColabというGoogleアカウントを持っている人なら誰
OpenAIが開発している「Whisper」は、あらゆる言語で人間の会話音声を文字起こしできる高性能なSpeech-to-textモデルだ。 Whisperはオープンソース化されており、モデルをダウンロードすれば、無料で、誰でも利用できる。 しかし、実用上の大きな問題がある。 それは、文字起こしには相当なGPUパワーを要し、一般的なPCでは時間がかかりすぎるという点だ。 そこで当ブログでは、Google Colaboratoryの無料のGPUインスタンスで、Whisperを利用するノートブックを公開している。しかし、Google Colabの無料プランで使えるGPUでは超高速とはいかず、数十分の音声を日常的に文字起こしするような場合、やはり実行速度がストレスになる。 そんなスピード重視だが精度を落としたくない、という人におすすめなのが、OpenAIが提供するAPIを経由して、Whisper
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く