並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 96件

新着順 人気順

Whisperの検索結果41 - 80 件 / 96件

  • Introducing Whisper

    Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web. We show that the use of such a large and diverse dataset leads to improved robustness to accents, background noise and technical language. Moreover, it enables transcription in multiple languages, as well as translation from those languages into Eng

      Introducing Whisper
    • GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++

      Stable: v1.5.4 / Roadmap | F.A.Q. High-performance inference of OpenAI's Whisper automatic speech recognition (ASR) model: Plain C/C++ implementation without dependencies Apple Silicon first-class citizen - optimized via ARM NEON, Accelerate framework, Metal and Core ML AVX intrinsics support for x86 architectures VSX intrinsics support for POWER architectures Mixed F16 / F32 precision 4-bit and 5

        GitHub - ggerganov/whisper.cpp: Port of OpenAI's Whisper model in C/C++
      • OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。

        OpenAIの音声認識モデルWhisperを利用し音声をテキストへ書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリースされています。詳細は以下から。 ChatGPTやGPT-3などを開発しているOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システムWhisperを公開しましたが、その音声認識モデルを利用して音声ファイルをテキストへ変換(書き起こし)してくれるMacアプリ「MacWhisper (Whisper Transcription)」が新たにリリースされています。 Quickly and easily transcribe audio files into text with OpenAI’s

          OpenAIの音声認識モデルWhisperを利用し音声からテキストを書き起こしてくれるMacアプリ「MacWhisper (Whisper Transcription)」がリリース。
        • ChatGPTがスマホアプリに まず米国でiPhone向け - 日本経済新聞

          【シリコンバレー=渡辺直樹】米新興企業のオープンAIは18日、対話型AI(人工知能)「Chat(チャット)GPT」のスマートフォンアプリの配信を始めたと発表した。音声入力にも対応した。米アップルのiPhone向けに提供し、近く米グーグルの基本ソフト(OS)アンドロイドのスマホにも対応する。米国向けを手始めに今後数週間で対応地域を広げる。アプリは無料で利用でき、複数の端末間で履歴を同期できる。オ

            ChatGPTがスマホアプリに まず米国でiPhone向け - 日本経済新聞
          • 【Python】OpenAIのWhisperで音声文字起こしアプリを作成! - Qiita

            はじめに OpanAI社の音声文字認識エンジンのWhisperを使って、音声文字起こしするプログラムを作成しました。 プログラムはPythonからAPIでWhisperを使って、音声文字認識する形式です。 約2分の音声を試したところは、Whisperの音声文字認識の精度は99%とAmiVoiceCloudPlatform(96%)以上の精度でした。 2分の動画を約9秒で変換できるなど、非常に使い勝手の良いAPIです。 価格は1分あたり0.9円(0.006ドル)です。 ただし、Whisperのインプットの音声ファイルの容量は25Mバイトですので、それ以上のファイルは分割する必要があります。 環境 Windows10 Python3.8.8 VSCode 使用ライブラリー openai pydub tkinter openpyxl pandas 処理の流れ: 今回作成した処理は、音声ファイルを

              【Python】OpenAIのWhisperで音声文字起こしアプリを作成! - Qiita
            • OpenAIの自動文字起こし「Whisper API」は1分1円以下! 簡単に使える?

                OpenAIの自動文字起こし「Whisper API」は1分1円以下! 簡単に使える?
              • OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」

                OpenAIが発表した音声認識モデル「Whisper」は、日本語の音声でも精度高く文字起こしできるツールとして知られています。今回はAIsmiley編集部が「AIニュース原稿の読み上げ音声を素材にどのくらい精度高く文字起こしできるのか」や「生活騒音下における読み上げ音声でも結果は変わらないのか」について調べてみましたので是非やり方を真似して試してみてください。 ■音声認識モデルとは? 音声認識モデルとは、AIが人間の声を認識し、認識した音声をもとに何らかのデータをアウトプットする技術を指します。身近な音声認識モデルには、アレクサでお馴染みのAmazon Echoがあります。Amazon Echoなどのスマートスピーカーは、人間の声を認識し、その音声の意図を把握した後、情報検索を行ったり、接続されている電化製品の操作を行ったりします。 スマートスピーカーの他にも、入力された音声をリアルタイム

                  OpenAIの文字起こしAI「Whisper」の使い方 | DXを推進するAIポータルメディア「AIsmiley」
                • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai

                  インター・ラボ株式会社は12月15日、人工知能研究組織OpenAIが開発した音声認識モデル「Whisper」を利用した音声文字起こしAPIである「WhisperAPI」の無償提供を開始したことを発表した。OpenAIは、文章から画像を生成するAI「DALL・E2」や、自然で多彩な文章を生成するAI「GPT-3」などを開発している。 高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いユーザーが利用できるようにする。また、プログラミングの知識を持たない人でもブラウザでかんたんに利用できるWebサービスも提供する。 画像はWhisper公式Githubより Whisperとは、OpenAIが開発した汎用的な音声認識モデルで、現在GitHubにおいて公開されている。教師あり学習で68万時間というデータを学習しており、高い音声認識精度を持つ。音声翻訳や言

                    OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始 | Ledge.ai
                  • VSCode上でCodeWhispererとCopilotを両方使うと、捗る (AIが脆弱性診断→AIが解説)

                    Qiita Advent Calendar 2023 「Visual Studio Code」 24日目の記事です。 言いたいこと VSCode上でAmazon CodeWhispererに脆弱性診断をさせてGitHub Copilot Chatにその解説をさせると、とても捗るよ。 もう少し細かい説明 GitHub CopilotやAmazon CodeWhispererって何? GitHub Copilotは、IDE上でAIがコーディングの補完をしてくれるGitHub提供のサービスです。 Amazon CodeWhispererは、IDE上でAIがコーディングの補完をしてくれるAWS提供のサービスです。 つまり競合しています。比較用に両方を使ったことがある人はいても、日常的に同時使用している人は少ないのではないでしょうか。 ですが、メイン機能であるコーディング補完は一旦おいておいて、Co

                      VSCode上でCodeWhispererとCopilotを両方使うと、捗る (AIが脆弱性診断→AIが解説)
                    • Whisper Web - a Hugging Face Space by Xenova

                      Discover amazing ML apps made by the community

                        Whisper Web - a Hugging Face Space by Xenova
                      • OpenAI、「ChatGPT」と「Whisper」のAPIを公開 料金体系、データの利用ポリシーは?

                        AI関連技術を開発する非営利組織OpenAIは2023年3月1日(米国時間)、対話に特化した言語モデル「ChatGPT」と汎用(はんよう)の音声認識モデル「Whisper」をAPIで利用できるようにしたと発表した。APIの公開に合わせて、利用規約を開発者ニーズにより良く対応できるように改訂したことも明らかにした。 ChatGPT APIは1000トークン当たり0.002ドルで提供 関連記事 ChatGPTとは何か そのできること/できないこと OpenAIがリリースした人との対話をターゲットとする大規模な言語モデル「ChatGPT」。その概要について見てみましょう。 サイバー犯罪者も「ChatGPTを使ってコーディング」をしている チェック・ポイント チェック・ポイント・ソフトウェア・テクノロジーズは脅威アクターがOpenAIのChatGPTを悪用して悪質なコードを生成していることを、実例

                          OpenAI、「ChatGPT」と「Whisper」のAPIを公開 料金体系、データの利用ポリシーは?
                        • 【Mac Info】 文字起こしは「Whisper Transcription」がオススメ!

                            【Mac Info】 文字起こしは「Whisper Transcription」がオススメ!
                          • AWS Lambda でOpenAI の Whisper API を 認識精度の改善も含めて試してみた | DevelopersIO

                            はじめに AWS LambdaでOpenAIのWhisper APIを試してみました。 OpenAIには音声データから文字起こししてくれる「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び出すWhisper APIが存在します。日本語ももちろん対応してます。 今回は、AWS LambdaがS3バケットに保存された音声データを元にWhisper APIで文字起こしして、精度を確認してみたいと思います。 OpenAIアカウントAPIキーの発行 OpenAIアカウント作成後、APIキーの発行をします。 APIキーの発行は、アカウントの View API keys をクリックします。 Create new secret key をクリックすると、API keyが発行されますので、コピーしておきます。 S3バケット 拡張子がwavの音声ファイルをS3バケットに保存しました

                              AWS Lambda でOpenAI の Whisper API を 認識精度の改善も含めて試してみた | DevelopersIO
                            • 「ChatGPT」が見て、聞いて、話せるように ~音声・画像対応のマルチモーダルAI/今後2週間のうちに「Plus」および「Enterprise」で提供

                                「ChatGPT」が見て、聞いて、話せるように ~音声・画像対応のマルチモーダルAI/今後2週間のうちに「Plus」および「Enterprise」で提供
                              • 無償のiOS版「ChatGPT」を早速使ってみた ~ついに来た公式アプリは優秀な音声入力機能がいい!/基本は同じでも直感的かつスムーズな手触りに好印象【やじうまの杜】

                                  無償のiOS版「ChatGPT」を早速使ってみた ~ついに来た公式アプリは優秀な音声入力機能がいい!/基本は同じでも直感的かつスムーズな手触りに好印象【やじうまの杜】
                                • OpenAIの音声認識モデルWhisperを利用し、オーディオやビデオファイルの音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリース。

                                  OpenAIの音声認識モデルWhisperを利用し音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリースされています。詳細は以下から。 ChatGPTなどを開発するOpenAIは2022年09月、Web上から収集した68万時間にも及ぶ音声データを利用し学習させた自動音声認識(ASR: Automated speech recognition)システム「Whisper」を公開しましたが、このWisperを利用し、音声をテキストへ変換してくっるMacアプリ「AI Transcription」が新たにリリースされています。 Turn audio into text! AI Transcription uses advanced Speech Recognition to transcribe your audio and video files in a bli

                                    OpenAIの音声認識モデルWhisperを利用し、オーディオやビデオファイルの音声をテキストへ変換してくれるMacアプリ「AI Transcription」がリリース。
                                  • WhisperのモデルをONNXにする - TadaoYamaokaの開発日記

                                    WhisperのモデルをONNXに変換する方法について記述する。 Whisperのモデル WhisperのモデルはPyTorchを使ってPythonで実装されている。 そのため、実行にはPyTorchをインストールしたPython環境が必要になる。 環境構築なしでスタンドアロンで利用できると用途が広がる。 また、アプリへの組み込みも行いやすくなる。 ONNXモデル ONNXは、ニューラルネットワークの標準ファイルフォーマットである。 モデルをONNXにすると、ONNX Runtimeなどの推論用のライブラリを使って推論できる。 推論用のライブラリは、組み込みで使うことを意図しているので、スタンドアロンのアプリに組み込むことができる。 ONNXへの変換 WhisperのモデルからONNXへの変換は、pytorch.onnxを使って行う。 ただし、Whisperは、デコーダのループ処理で、前の

                                      WhisperのモデルをONNXにする - TadaoYamaokaの開発日記
                                    • 議事録生成AI「CalqTalk」の更なる飛躍: OpenAIのGPT-3とWhisperで高速高精度化

                                      議事録生成AI「CalqTalk」の更なる飛躍: OpenAIのGPT-3とWhisperで高速高精度化文字起こし技術の高度化により音声構造化と提案精度向上、及び高速化に成功 ジェネレーティブAIや量子技術を活用したクリエイティブ集団であるKandaQuantum(本社:東京都千代田区、CEO:元木大介)は、当社のサービスである議事録AI「CalqTalk(カルクトーク)」にOpenAIの音声認識モデル「Whisper」を導入し、更なる議事録AIの高速高精度化に成功しました。 *議事録AI: 音声認識モデルと自然言語生成モデルを組み合わせ人間が理解しやすい情報への構造化とネクストアクション等の提案まで行うAI 「CalqTalk」先行ユーザー登録フォームはこちら! https://forms.gle/fe1DtwTkYdQtUiby8 [お知らせ] 株式会社KandaQuantum代表元木

                                        議事録生成AI「CalqTalk」の更なる飛躍: OpenAIのGPT-3とWhisperで高速高精度化
                                      • GitHub - leetcode-mafia/cheetah: Mac app for crushing remote tech interviews with AI

                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                          GitHub - leetcode-mafia/cheetah: Mac app for crushing remote tech interviews with AI
                                        • Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO

                                          こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日Hugging FaceのブログでHugging Faceのフレームワークを用いたfine-tuningの実行方法が紹介されました。 fine-tuningにより、自社で蓄積された音声や書き起こしのデータセットがある場合は、特化した学習をすることが可能です。 また著名なHugging Faceからfine-tuningの実装がリリースされたことで、今後様々なシーンでの応用の可能性を感じます。 Hugging FaceブログではHindi語を例として実施していますが、今回はこちらについて、日本語データを例にしながら動作を確認していきたいと思います。 概要 本記事では、Hugging Faceのフレームワークを用いたfine-tuningの実行を、日本語データセットを例

                                            Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました | DevelopersIO
                                          • Whisperで文字起こしをした文章をChatGPTでいい感じにする

                                            Whisperで文字起こしした文章をいい感じにしたい 注:あくまで個人的な使用を前提とした文字起こしの方法の紹介です。許可なく、他人のコンテンツを全部文字起こしして公開すると、著作物の改変などの問題になる可能性があると思います タイトル通りです。 Whisperで文字起こしをしました。 ただ、以下のように句読点がない文章になってしまい、読みづらいです。 樋口 世界の歴史キュレーションプログラム コテンラジオ樋口 世界の歴史キュレーションプログラム コテンラジオパーソナリティーの株式会社ブック代表樋口清則 です深井 そして株式会社コテンの深井 隆之介です樋口 そして株式会社コテンの楊 英史です樋口 このラジオは歴史を愛し歴史 の面白さを知りすぎてしまった深井さんを代表とする株式会社 コテンのお二人と一緒に学校の授業ではなかなか学べない国内外 の歴史の面白さを学んじゃおうという番組ですよろしく

                                              Whisperで文字起こしをした文章をChatGPTでいい感じにする
                                            • iPhoneでChatGPT。iOSアプリが日本でも公開

                                                iPhoneでChatGPT。iOSアプリが日本でも公開
                                              • 無料で使えるChatGPT公式のiOSアプリ登場、文字起こしAIのWhisperで音声入力も可能

                                                OpenAIが高性能チャットAI「ChatGPT」のiOSアプリを公開しました。アプリではChatGPTとチャットできるほか、文字起こしAI「Whisper」を用いた音声入力にも対応しています。 Introducing the ChatGPT app for iOS https://openai.com/blog/introducing-the-chatgpt-app-for-ios ChatGPTの公式iOSアプリは、以下のリンク先で配布されています。 OpenAI ChatGPT on the App Store https://apps.apple.com/app/openai-chatgpt/id6448311069 ただし、記事作成時点ではアメリカでのみ公開されており、日本からアクセスしても「App入手不可能」と表示されてしまいました。 そこで、居住国をアメリカに設定したAppl

                                                  無料で使えるChatGPT公式のiOSアプリ登場、文字起こしAIのWhisperで音声入力も可能
                                                • OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO

                                                  こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、先日は以下の紹介記事を書きました。 今回はもう少し深堀することで、様々な使い方がわかってきたのでシェアしたいと思います。 Whisperでできること APIを使ってできるのは以下になります。 transcribe(書き起こし処理) 音声からの文字書き起こし。 99言語に対応 translate(書き起こし + 翻訳) 音声からの翻訳処理。 入力は多言語に対応していますが、出力は英語のみ。 また内包される機能として、言語判定や有音無音判定(VAD:Voice Activation Detector)があります。 この記事ではそれぞれの使い方を見ていきながら、transcribeの詳細に迫ります。 実行環境 ハードウェアなどの主な情報は以下の通りです。 GPU: Tesla

                                                    OpenAIがリリースした音声認識モデル”Whisper”の使い方をまとめてみた | DevelopersIO
                                                  • ‎ChatGPT

                                                    Introducing ChatGPT for iOS: OpenAI’s latest advancements at your fingertips. This official app is free, syncs your history across devices, and brings you the newest model improvements from OpenAI. With ChatGPT in your pocket, you’ll find: · Voice mode—tap the Headphones icon to speak on the go, request a bedtime story for your family, or settle a dinner table debate. · Creative inspiration—birthd

                                                      ‎ChatGPT
                                                    • GitHub - SYSTRAN/faster-whisper: Faster Whisper transcription with CTranslate2

                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                        GitHub - SYSTRAN/faster-whisper: Faster Whisper transcription with CTranslate2
                                                      • OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法

                                                        OpenAIから、かなりすごい音声認識モデル Whisperが発表されました。特出すべき点は、教師付き音声68万時間という、かなりヤバめのデータ量で訓練しており、英語では商用の音声認識システムや人間の書き起こしに匹敵する性能とのことです。 社内でも日本語、ブルガリア語、韓国語で試してみましたが、すごい精度でした。日本語の場合、漢字の間違いが多々ありましたが、発音は大体あってそうでした。ブルガリア語は、ロシア語で認識されていました。韓国語は、完璧でした。 しかし、Githubに公開されたコードを見てみると、訓練コードが含まれておらず、公開の予定もないそうです。そこで、本記事では、Whisperの解説に加えて、Fine Tuningの方法を解説します。 ※ Fine Tungingを何となくで作成しているので、正確なコードではないです。気付いた点がありましたら、コメントください。 全てのコード

                                                          OpenAIの音声認識モデル Whisperの解説 / Fine Tuning 方法
                                                        • OpenAIからChatGPTとWhisperに関するAPIがリリースされたのでドキュメントを読み解いてみた | DevelopersIO

                                                          こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 先日、OpenAIからChatGPTとWhisperに関するAPIがリリースされました。 この記事では発表やAPIドキュメントからポイントとなりそうな部分を抽出して紹介したいと思います。 1次情報は以下を参照ください。 冒頭まとめ 冒頭で気付いたポイントを列挙しておきます。 ChatGPT API 入力としてテキスト(content)以外にroleをmessagesに記述(複数可能) 入力にroleを用いた複数のmessageを与えることで、ある程度内容のコントロールが可能 会話の履歴は自動では参照しないため、サービスとしてのChatGPTと同様の動きをさせるには、過去の会話を入力する必要があると推察 課金は入力出力合計のトークン単位($0.002/1ktoken) トークンは単純な単語単位とは異

                                                            OpenAIからChatGPTとWhisperに関するAPIがリリースされたのでドキュメントを読み解いてみた | DevelopersIO
                                                          • OpenAI、「ChatGPT」のiOS向けの公式アプリを無償公開 ~Androidも近いうちに登場【5月26日追記】/デバイス間で履歴を同期、有料プラン「ChatGPT Plus」にも対応

                                                              OpenAI、「ChatGPT」のiOS向けの公式アプリを無償公開 ~Androidも近いうちに登場【5月26日追記】/デバイス間で履歴を同期、有料プラン「ChatGPT Plus」にも対応
                                                            • 話題のiPhone版ChatGPTアプリ、必要な設定とは

                                                              AI/人工知能を利用したチャットサービス「OpenGPT」のアプリ版が、ついに日本のApp Storeで公開されました。米国でのリリースに遅れること約1週間、それほど待たされずに済んだことに安心したiPhoneユーザも多いのではないでしょうか。 使いかたはWEB版と基本的に同じ、アカウント作成後に質問事項をキーボードで入力すればOK。ユーザインタフェースは英語ですが、質問文は日本語でOK。もちろん、ひらがな/カタカナや漢字も使用できます。畏まった言い回しは必要なし、ふだん会話しているときの感覚でかまいません。 ChatGPTはWEBサービスで、エンジン部分はクラウド上に存在しますから、WEB版とアプリ版の機能は基本的に同じです。回答内容もほとんど違いはありませんが、アプリ版はAppライブラリから起動できたり、「ショートカット」で他のアプリと連携できたり、WEBブラウザより応用が利きます。2

                                                                話題のiPhone版ChatGPTアプリ、必要な設定とは
                                                              • ChatGPT API や Whisper API を早速使って開発された22個の面白いサービスまとめ|ChatGPT研究所

                                                                AGIラボは、最高のAI情報をお届けするためのマガジン・コミュニティです。GPTsを筆頭にClaude 3やSoraなど注目のAIについても詳しく解説、今日から使えるAI活用情報を一番わかりやすくお伝えします。他に限定コミュニティへのアクセス、限定イベントへの参加権が含まれます。

                                                                  ChatGPT API や Whisper API を早速使って開発された22個の面白いサービスまとめ|ChatGPT研究所
                                                                • Whisper - a Hugging Face Space by openai

                                                                  Discover amazing ML apps made by the community

                                                                    Whisper - a Hugging Face Space by openai
                                                                  • WhisperをFine Tuningして専門用語を認識可能にする

                                                                    Whisperを少量のデータセットでFine Tuningして専門用語を認識可能にする方法を解説します。Tacotron2の合成音声でデータセットを作成することで、専門用語を認識可能なWhisperモデルを作成します。 WhisperについてWhisperはOpenAIの開発した音声認識モデルです。日本語を含む多言語に対応しており、高精度な音声認識が可能です。ただし、学習時に使用していない専門用語は認識できないという問題があります。 Whisperのアーキテクチャ(出典:https://huggingface.co/blog/fine-tune-whisper)Whisperにおける専門用語の扱いについてWhisperで専門用語を取り扱う場合、initial_promptに専門用語を埋め込むという方法があります。しかし、initial_promptにはコンテキストサイズの半分の224トーク

                                                                      WhisperをFine Tuningして専門用語を認識可能にする
                                                                    • mlxのwhisperでリアルタイム文字起こしを試してみる - Qiita

                                                                      Whisperでのリアルタイム文字起こしの手法は「Whisperを使ったリアルタイム音声認識と字幕描画方法の紹介」を参考にした。 mlxのwhisperセットアップは前回の記事を参考ください。 本題 ストリーミング処理を行うには音声の無音検知が必要となるので調べたところ、faster-whisperでもVAD(Voice Activity Detector)にSilero VADを使っている。 それのJS版であるricky0123/vadで書かれているコードがあったのでmlx用に一部書き直して試してみた。 ファイル構成 import os import time from flask import Flask, request, render_template import whisper import threading UPLOAD_FOLDER = 'uploads' ALLOWED

                                                                        mlxのwhisperでリアルタイム文字起こしを試してみる - Qiita
                                                                      • OpenAI API の Whisper API の使い方|npaka

                                                                        「OpenAI」の 記事「Speech to text」が面白かったので、軽くまとめました。 1. Whisper API「OpenAI API」の「Whisper API」 (Speech to Text API) は、最先端のオープンソース「whisper-large-v2」をベースに、文字起こしと翻訳の2つのエンドポイントを提供します。 ・音声を文字起こし ・音声を英語に翻訳して文字起こし ファイルサイズは最大25MBで、以下のファイル形式をサポートしています。 mp3, mp4, mpeg, mpga, m4a, wav, webm 2. 使用料金使用料金は、以下で確認できます。 3. 音声を文字起こしGoogle Colabでの実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッケージのインストール !pip install openai(2) 環境変数の準

                                                                          OpenAI API の Whisper API の使い方|npaka
                                                                        • 【CPU上の実行に対応】OpenAI Whisperの高性能推論ver Whisper.cppを試してみた - Qiita

                                                                          まえがき OpenAI Whisperの高性能推論verが話題となっていたので試してみました。 C/C++で実装され、CPUの実行に最適化されたものとなっているようです。 特徴としては以下が挙げられていました。 依存性のないプレーンなC/C++による実装 x86 アーキテクチャの AVX 組み込み関数のサポート POWER アーキテクチャの VSX 組み込み関数のサポート F16 / F32 の混合精度 低メモリ使用量 CPU上で実行 Windows / Linux / Mac OS / iOS / Android / WebAssembly / Raspberry Piのプラットフォームに対応 導入 ソースコードをローカルへクローンする $ bash ./models/download-ggml-model.sh <Model> Downloading ggml model small

                                                                            【CPU上の実行に対応】OpenAI Whisperの高性能推論ver Whisper.cppを試してみた - Qiita
                                                                          • faster-whisperでwhisper large-v3を動かしてみよう!

                                                                            先日(11/7)にOpenAIの開発者会議がありましたね。 そのうちの1個にwhisper-large-v3の発表がありました。 他の機能が注目されていて、あまり目立ってはいないですが、とても大きなアップデートと個人的に感じましたので記事にしました! 音声文字起こし Whisperとは? whisperとは音声文字起こしのことです。 Whisperは、Hugging Faceのプラットフォームでオープンソースとして公開されています。このため、ローカルPCでの利用も可能です。OpenAIのAPIとして使用することも可能です。 whisper large-v3とは?large-v2との違い 以下は教科書的になりますが、公式hugging faceページから引用したものです。 訓練データの量 large-v2よりも多くの訓練データを使用しています。具体的には、100万時間の弱ラベル付きオーディオ

                                                                              faster-whisperでwhisper large-v3を動かしてみよう!
                                                                            • 話者を区別できる文字起こしツール「CLOVA Note」、キーワードも自動抽出

                                                                              セミナーや会議の内容をテキスト化しておくと後から振り返りやすい。しかし、音声をテキスト化する、いわゆる文字起こしの作業は、長時間にわたるセミナーや参加者が複数いる会議などでは担当者の負担が大きい。そこで、文字起こしツールを利用する人も多いだろう。 筆者も職業柄、インタビューや講演の文字起こしをする機会が多く、文字起こしツールをいくつか使ってきた。現在は、今回紹介する「CLOVA Note(クローバ・ノート)」を仕事の相棒として頼りにしている。 CLOVA Noteは、LINEのAIテクノロジーブランド「LINE CLOVA」によるAI音声認識アプリだ。音声認識エンジンはLINE CLOVAが開発した「CLOVA Speech」が使用されている。2022年5月からベータ版として無料提供が開始された。 スマートフォンアプリ(iOS/Android)を起動し、アプリで録音した後に文字起こしするか

                                                                                話者を区別できる文字起こしツール「CLOVA Note」、キーワードも自動抽出
                                                                              • faster-whisperを使ってYoutubeを高速に文字起こしする方法

                                                                                はじめに みなさんは、Whisper を使って文字起こしをしているでしょうか? Whisper は OpenAI がリリースした text2speech のモデルです。 このモデルは実装を含めて公開されているので、モデルを軽くしたり、あらゆる環境で動かしたり、といった試みが随所で行われています。 今回は、つい先月にリリースされた、faster-whisper のモデルを使って、実際に文字起こしをしてみましょう。 faster-whisper とは OpenAI 公式のモデルを軽量化、独自の最適化により、最大 4 倍の高速化を実現 軽いと評判の Whisper.cpp よりも高速に動作(ただしメモリは若干多め) Whisper.cpp と違って、GPU による高速化の恩恵が受けられる とまあかなり良さそうです。試してみましょう。 Colab で実行 といっても、Colab で動かすだけです。

                                                                                  faster-whisperを使ってYoutubeを高速に文字起こしする方法
                                                                                • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします

                                                                                  インター・ラボ株式会社(本社:大阪府大阪市、代表取締役:長山 清志)は、Whisperを利用した音声文字起こしAPI、「WhisperAPI」の無償提供を12月15日(木)より開始します。その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いお客様にご利用いただきたいと考えております。また、APIだけではなくプログラミングの知識をお持ちでない方でも、ブラウザで簡単にご利用いただけるwebサービスも提供いたします。 音声認識モデル「Whisper」とは Whisperとは「DALL・E2」、「GPT-3」などを開発しているOpenAIが開発した汎用的な音声認識モデルです。 教師あり学習で68万時間というデータで学習しており、日本語を含む多言語の音声を高精度で文字起こしします。 その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外

                                                                                    OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします