並び順

ブックマーク数

期間指定

  • から
  • まで

81 - 98 件 / 98件

新着順 人気順

Whisperの検索結果81 - 98 件 / 98件

  • faster-whisperを使ってYoutubeを高速に文字起こしする方法

    はじめに みなさんは、Whisper を使って文字起こしをしているでしょうか? Whisper は OpenAI がリリースした text2speech のモデルです。 このモデルは実装を含めて公開されているので、モデルを軽くしたり、あらゆる環境で動かしたり、といった試みが随所で行われています。 今回は、つい先月にリリースされた、faster-whisper のモデルを使って、実際に文字起こしをしてみましょう。 faster-whisper とは OpenAI 公式のモデルを軽量化、独自の最適化により、最大 4 倍の高速化を実現 軽いと評判の Whisper.cpp よりも高速に動作(ただしメモリは若干多め) Whisper.cpp と違って、GPU による高速化の恩恵が受けられる とまあかなり良さそうです。試してみましょう。 Colab で実行 といっても、Colab で動かすだけです。

      faster-whisperを使ってYoutubeを高速に文字起こしする方法
    • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします

      インター・ラボ株式会社(本社:大阪府大阪市、代表取締役:長山 清志)は、Whisperを利用した音声文字起こしAPI、「WhisperAPI」の無償提供を12月15日(木)より開始します。その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いお客様にご利用いただきたいと考えております。また、APIだけではなくプログラミングの知識をお持ちでない方でも、ブラウザで簡単にご利用いただけるwebサービスも提供いたします。 音声認識モデル「Whisper」とは Whisperとは「DALL・E2」、「GPT-3」などを開発しているOpenAIが開発した汎用的な音声認識モデルです。 教師あり学習で68万時間というデータで学習しており、日本語を含む多言語の音声を高精度で文字起こしします。 その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外

        OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします
      • 日本語に特化した高精度な音声認識 ReazonSpeech を使って、会議音声を書き起こししてみた | DevelopersIO

        こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 本記事では、株式会社レアゾン・ホールディングスが2023年1月18日に公開したReazonSpeechを使ってみたいと思います。 ReazonSpeechはプロダクト群の総称で、日本語に特化した超高精度なモデルと、その学習に使用されたコーパス、コーパス作成のためのツールなどが公開されています。 詳細は下記リンクを参照ください。 モデルの方は、ライセンスがApache-2.0となっており商用利用も可能な形となっています。 コーパスはテレビなどの音声となりますので、CDLA-Sharing-1.0 (ただし利用目的は著作権法30条の4に定める情報解析に限る)とされています。 今回はこのモデルをColab上で動かして、以前投稿したWhisperなどと比較してみたいと思います。 実行手順は下記の以前の記事も参考にされてください

          日本語に特化した高精度な音声認識 ReazonSpeech を使って、会議音声を書き起こししてみた | DevelopersIO
        • GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)

          This repository provides fast automatic speech recognition (70x realtime with large-v2) with word-level timestamps and speaker diarization. ⚡️ Batched inference for 70x realtime transcription using whisper large-v2 🪶 faster-whisper backend, requires <8GB gpu memory for large-v2 with beam_size=5 🎯 Accurate word-level timestamps using wav2vec2 alignment 👯‍♂️ Multispeaker ASR using speaker diariza

            GitHub - m-bain/whisperX: WhisperX: Automatic Speech Recognition with Word-level Timestamps (& Diarization)
          • OpenAI API

            An API for accessing new AI models developed by OpenAI

            • Dockerを使ってOpenAIのWhisperをサクッと試す

              少し前から界隈を賑わせているWhisper。 どうやらスゴイらしい。 嬉しいことに 日本語対応 しかも無料 という太っ腹ぷり。 アーキテクチャ・どんなにスゴイかすっ飛ばして「環境つくり/テスト」に焦点を当てます。 (Colabの記事は既にいくつかあったので、dockerを使った環境構築を想定して書きます。) 結論から言うと、「めっちゃ簡単」でした。 こういうのってハマりどころが多いなと思って、備忘録として書いたのですが、簡単だったので内容が薄いです。。 とくにかく触ってみたい huggingfaceさんがデモを公開してくれています(いつもお世話になります)。 手っ取り早く試したい人はここから試すと良いでしょう。 環境構築(CPU) 環境はubuntuです。 こんな感じでDOCKERFILEを作ります。 FROM python:3.9-slim WORKDIR /workspace RUN

                Dockerを使ってOpenAIのWhisperをサクッと試す
              • 文字起こしの結果をOpenAI APIを利用して文章校正を行う - Qiita

                はじめに faster-whisperによる文字起こしの結果をOpenAI APIを利用して文章校正を行いました。 Whisperでの文字起こし結果に対しても有効であると思います。 2023 年 07 月 12 日 苦労したこと タイムスタンプを維持した状態で文章校正を行うこと。 なるべくトークンを消費しない形でインプットを行う。 失敗 改行コードや<BR>を利用して1行ずつに区切った応答を期待する => 改行コードは無視され全文で校正されてしまう。 [1]を文頭に付与することで区切り文字の情報が応答に残る事を期待する => 数字が昇順に振られる事や無視されるケースもあった。 タイムスタンプを文頭に付与することで区切り文字の情報が応答に残る事を期待する => トークンの無駄に消費してしまうため却下 成功 [#]を文頭に付与することで区切り文字の情報が応答に残る事を期待する =>うまくいった

                  文字起こしの結果をOpenAI APIを利用して文章校正を行う - Qiita
                • 最新の音声認識モデル『Whisper』を使ってみたよ

                  昨日は、あひるさんの知らない技術まみれのチームに移動した時に実践したことでした。 畑の違う技術や分野に挑戦するときはすごい体力がいりますが、そこに果敢に挑戦して成果を出し続けている姿に日々刺激をもらっています..! 改まして、こんにちは! @koonagiです。 普段はインフラエンジニア兼データエンジニアとしてTerraformを書いたり、CI/CD作ったり、ETL処理書いたりしています。 普段とは違うことをしてみようと音声認識モデル『Whisper』をつかってみたので、そのことについて書いてみようと思います。 Whisperとは Whisperってなんなのよというところからですが、最近流行っているChatGPTやGPT-3を開発しているOpenAIが開発している音声認識モデルです。 モデルで利用しているトレーニングデータはウェブで収集したデータでなんと68万時間分のデータとなっております

                    最新の音声認識モデル『Whisper』を使ってみたよ
                  • GPUがなくても高速に音声認識ができるwhisper.cppを試してみる - kun432's blog

                    ちょっと前に、かんたんに高精度な音声認識ができるWhisperが話題でしたが、そもそもそんな高性能GPUうちにはなく、盛大に出遅れていたのですが、 GPU不要・CPUでも「高速」に動作するWhisper CPPがあるということで、手元の環境で試してみました。 目次 目次 参考 環境 音声データについて 手順 まとめ 参考 以下の記事を参考、というかもうほぼ「写経」させていただいただけです。ありがとうございます。 環境 そろそろ買い替えてもなーと思いつつ、普段全然困ってないので買い換えるモチベーションもフトコロもあまりないです。購入時に奮発してほぼフルスペにしたので、今の感じからするとあと2年ぐらいは使えそうだなと思ってます。 MacBookPro (15-inch, 2016) CPU: 2.9GHz クアッドコア Intel Core i7 メモリ: 16GB グラフィック: Radeo

                      GPUがなくても高速に音声認識ができるwhisper.cppを試してみる - kun432's blog
                    • ほぼ完璧な文字起こしができるAI音声認識Whisperのインストール

                      「動画・音声の文字起こしを自動で行いたい」 「AIを使って、無料で精度の高い音声認識を試したい」 このような場合には、Whisperがオススメです。 この記事では、ほぼ完璧な文字起こしができるWhisperについて解説しています。 本記事の内容 Whisperとは?Whisperのシステム要件WhisperのインストールWhisperの動作確認 それでは、上記に沿って解説していきます。 Whisperとは? Whisperとは、汎用的な音声認識モデルになります。 Whisperは、OpenAIによって開発されています。 OpenAIと言えば、「DALL・E 2」や「GPT-3」の開発で有名ですね。 そこにWhisperも投入してきたという流れになります。 OpenAIによる、Whisperの紹介ページは以下。 Introducing Whisper https://openai.com/b

                        ほぼ完璧な文字起こしができるAI音声認識Whisperのインストール
                      • 【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment その1:下調べとワンパス - Qiita

                        概要 whisperとwav2vecを使った音素レベルのaudio-lyric-alignmentの方法を試行錯誤します。とりあえず下調べして、なんとなくの方針を決めて、精度はともかく、それっぽいalignmentの結果が出てくることを目指します。 シリーズ一覧は以下 【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment リンクまとめ 背景 forced-alignment forced-alignmentはある音声(発話)とその書き起こしテキストにおいて、テキストの各音素が、音声のどの位置(時刻)に対応するかを推定する技術です。 https://linguistics.berkeley.edu/plab/guestwiki/index.php?title=Forced_alignment この技術の応用先として、動画への自動字幕付与などがあります

                          【試行錯誤】OpenAI Whisperを活用した日本語歌詞のforced-alignment その1:下調べとワンパス - Qiita
                        • AIによる画像生成や文字おこしもOK、Linuxフリーソフトを使いこなす

                          Linuxはサーバーによく使われているのに加え、Windowsのようにパソコン用OSとしても利用できる。過去に挑戦して断念したことがある人も無理なく学べるように、ステップアップ式でLinuxを解説する。 Step 43 AIを使って人の顔を正確に検出する方法 AI(人工知能)を使った顔検出の方法は数多く、主には(1)特徴量を人間が設計する手法、(2)特徴量を大量のデータからディープラーニングで学習する手法の二つがあります。「特徴量」とは、AIの分野では予測の手がかりとなる重要な数字のことです。例えば顔検出のような画像処理の分野では、「縦のシマが多い」「特定の色が多い」といった情報が特徴量となります。今回は、上記の二つの手法を実際に試して比較してみましょう。 顔検出に使う特徴量として有名な「ハールライク(Haar-like)特徴量」を使った手法を紹介します。ハールライク特徴量は、画像の明暗差

                            AIによる画像生成や文字おこしもOK、Linuxフリーソフトを使いこなす
                          • 動画ファイルからテキスト抽出がWhisperを使えば数十分で実装できた話 - Qiita

                            こちらでAWSサービスを使って動画ファイル→音声ファイル→テキストファイルという処理を実装したのですが、 今流行りのOpenAIのWhisperというサービスを使うことで一瞬でそして無料で実装できたので紹介します。 (今までの苦労とお金はなんだったんだ。。。) 利用サービス Whisper 今流行りのOpenAIの文字起こしサービスとなります。 オープンソースなので誰でも簡単に使うことができます。 moviepy Whisperだけと言いましたが動画を音声に変換するためにこちらのpythonライブラリーも使っています。 実装方法 詳しくは上記を参照してください。 python 3.10.2にて実装しました。 まず下記コマンドにてwhisperをインストール

                              動画ファイルからテキスト抽出がWhisperを使えば数十分で実装できた話 - Qiita
                            • GKE Autopilot で OpenAI の Whisper を動かす

                              この記事は Google Cloud Japan Advent Calendar 2022 8 日目 の記事です。 こんにちは!みなさん AI/ML やってますか!?私は AI/ML を非常に苦手としているのですが、色々な団体が発表する さまざまな 技術には 非常に興味を持っています。そして、いつかこのような技術を本番環境に組み込んだりするんだろうな、、それってどこにどうやってデプロイすることになるんだろう…ということも。 というわけで今回は OpenAI が生み出した、 Whisper を Google Cloud 上で動かすというお題を例にして、上記の場合どんなことを考えなければいけないかということを考察していこうと思います。 Whisper とは Whisper とは、 Whisper is a general-purpose speech recognition model. It

                                GKE Autopilot で OpenAI の Whisper を動かす
                              • OpenAIリリースのWhisperをCPUだけで動かすために色々試した話 | DevelopersIO

                                皆さんこんにちは、クルトンです。 今回は、OpenAIがリリースしたWhisperをCPUだけで動かしてみました。 Google ColabなどでGPUを動かすときに上限制限が気になる人の参考になればと思い筆を取りました。 最終的にはローカルCPUで動かしているので、そこだけ見たいという方は「ローカルCPUでWhisperを動かす」からご覧ください。 キッカケ 社内で記事が出ており、そこから興味を持ったので動かそうとしました。 「まずは簡単に試したい」と考えたので、実際に動かそうとしたのはこちらの公式のチュートリアルです。 GPUを使って動かしてもよかったのですが、簡単にCPUで動かないかと考えて試そうとしました。 エラーと学習時間 Google ColabのチュートリアルをCPUで上から順番に実行していると、whisper.DecodingOptionsメソッドで次のようなエラーに遭遇す

                                  OpenAIリリースのWhisperをCPUだけで動かすために色々試した話 | DevelopersIO
                                • https://twitter.com/izutorishima/status/1572882677476499462

                                    https://twitter.com/izutorishima/status/1572882677476499462
                                  • ChatGPTと同時公開、音声認識「Whisper」APIで現実味が増す「2次元嫁との会話」 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報

                                    あの日夢見たGateboxは実現するのだろうか(Gateboxのウェブサイトから) 3月1日にOpenAIが公開したChatGPTのAPI(GPT-3.5-Turbo)が世界中で話題になっています。日本国内でも続々と事業者が(レベルの差はあれ)このAPIを叩いて何ができるか模索しはじめていて、API公開からわずか1週間ですがLINE連携のサービス「AIチャットくん」には20万人が殺到しました。 開始3日で20万人登録サービスもーーChatGPTで激変するネットサービスたち(前半) メカニカル仏にエンジニアのレジュメ自動生成ーーChatGPTで激変するネットサービスたち(後半) 先日、メカニカル仏を作っている家入一真さんとチャットで「なんかスマホアプリ作ってた最初の頃と似てるよね」っていう話をしていたのですが、本当にそんな感じなんですよね。2010年代前半も新しいプラットフォームで何ができる

                                      ChatGPTと同時公開、音声認識「Whisper」APIで現実味が増す「2次元嫁との会話」 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
                                    • 【もう語学学習は不要!?】リアルタイム文字起こし+翻訳AIツールをスマホで無料で使う方法 《オフラインでも利用可能です。》|チャエン | 重要AIニュースを毎日発信⚡️

                                      【もう語学学習は不要!?】リアルタイム文字起こし+翻訳AIツールをスマホで無料で使う方法 《オフラインでも利用可能です。》 みなさん、こんにちは。 チャエンです!(自己紹介はこちら) リアルタイム文字起こし+翻訳ができるAIツール WhisperKitがヤバいです。何より、これが無料でスマホで使えるのが半端ないです。 ドラえもんの道具「翻訳こんにゃく」が発明されたと言っても過言ではありません。 日本語の文字起こしは完璧で、英語への翻訳も即時なのでこれで英語話せなくても会話できます。 一応、英語→日本語リアルタイム表示も可能ですが精度に難ありです。 今回は、このアプリでできること技術面、使い方の解説を行います。 英語のミーティングが多いけど苦手な方や英語での情報収集を積極的にしたい方にとてもおすすめです。 ぜひ最後までご覧ください💡 1.このアプリでできること冒頭でWhisperKitとい

                                        【もう語学学習は不要!?】リアルタイム文字起こし+翻訳AIツールをスマホで無料で使う方法 《オフラインでも利用可能です。》|チャエン | 重要AIニュースを毎日発信⚡️

                                      新着記事