並び順

ブックマーク数

期間指定

  • から
  • まで

321 - 360 件 / 674件

新着順 人気順

Whisperの検索結果321 - 360 件 / 674件

  • 音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO

    こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 OpenAIがリリースしたWhisperについて、前回はtranscribeの内容を紐解きました。 Whisperが提供しているtranscribeのAPIは、バッチ処理のみに対応した構成となっており、リアルタイムに認識を試すのが難しくなっています。 そこで今回は、前回紐解いた結果を使ってストリーミング処理に対応させてみようと思います。 設計の概要 以下に設計の概要を図で示します。 前回ご紹介した通り、transcribeの中身は30秒単位で処理をしています(この単位を本記事ではフレームと呼びます)。 そして次の処理フレームは、前のフレームのタイムスタンプトークンの末尾から30秒となります。 そのためフレームをずらす長さ(これを本記事ではシフト長と呼びます)は動的になります。 そのため、設計方針は以下のようにしました。

      音声認識モデル”Whisper”をストリーミング処理対応させる方法 | DevelopersIO
    • GGML/GGUF/GPTQの違い

      whisper.cppとかllama.cppとかのモデルを見てると、GGMLとかGGUFとかGPTQとか色々なフォーマットが出てくる。これまでは適当に雰囲気で選んでいたんだけど、ちゃんとを調べてみた。 GGML ChatGPTやBardなどで利用されているチャットAIは、トレーニングだけでなく動作させるのにも数十~数百GBのVRAMなど非常に高いマシンスペックを要求するのが一般的です。そうした状況を変えるべく、GPU不要でチャットAIを動作させるライブラリ「GGML」の開発が進められています。 ggml.ai http://ggml.ai/ ggerganov/ggml: Tensor library for machine learning https://github.com/ggerganov/ggml GGMLの特徴は下記の通り。 ・Cで記述 ・16bit floatをサポート ・

        GGML/GGUF/GPTQの違い
      • ChatGPTのマルチモーダルな新機能|npaka

        以下の記事が面白かったので、かるくまとめました。 ・ChatGPT can now see, hear, and speak 1. ChatGPTのマルチモーダルな新機能「ChatGPT」にマルチモーダルな新機能が追加されました。 ・音声による会話 : iOS・Android ・画像について質問 : iOS・Android・PC 今後2週間以内に、Plus および Enterprise ユーザーに提供される予定です。 2. 音声による会話ChatGPTとの音声による往復会話が可能になりました。 これによって、外出先で話しかけたり、夕食のテーブルでの議論を解決したり、就寝前に会話したりすることができます。 使い方は、次のとおりです。 (1) モバイルアプリの「設定 → 新機能」で「音声会話」を有効化 (2) ホーム画面右上のヘッドフォンボタンをタップし、5つの音声から好みのものを選択 音声合

          ChatGPTのマルチモーダルな新機能|npaka
        • 【CPU上の実行に対応】OpenAI Whisperの高性能推論ver Whisper.cppを試してみた - Qiita

          まえがき OpenAI Whisperの高性能推論verが話題となっていたので試してみました。 C/C++で実装され、CPUの実行に最適化されたものとなっているようです。 特徴としては以下が挙げられていました。 依存性のないプレーンなC/C++による実装 x86 アーキテクチャの AVX 組み込み関数のサポート POWER アーキテクチャの VSX 組み込み関数のサポート F16 / F32 の混合精度 低メモリ使用量 CPU上で実行 Windows / Linux / Mac OS / iOS / Android / WebAssembly / Raspberry Piのプラットフォームに対応 導入 ソースコードをローカルへクローンする $ bash ./models/download-ggml-model.sh <Model> Downloading ggml model small

            【CPU上の実行に対応】OpenAI Whisperの高性能推論ver Whisper.cppを試してみた - Qiita
          • Microsoft、企業向けにも生成系AI 「Dynamics 365 Copilot」提供開始

            米Microsoftは、3月6日(現地時間)、「Dynamics 365 Copilot」を発表した。Copilot(副操縦士という意味)は、生成系AIで業務を自動化し、生産性を向上するための「次世代のビジネスアシスタント」とMicrosoftは説明する。 Dynamics 365は、Microsoft Azure上で提供されるCRMやERP機能を備えたSaaS型の企業向けビジネスアプリパッケージだ。Copilotは、DynamicsのTeamsやOutlookなどのアプリに統合される。 これにより、例えばCopilotに「今日のスケジュールを教えて」と尋ねると、自動的にユーザーのスケジュールが表示される。会議のスケジュール調整やメールの返信などの機能も提供する。TeamsでのWeb会議の議事録作成も行う。 見積書や請求書の作成と顧客への送信、顧客からの問い合わせの対応、作業手順やスケジュ

              Microsoft、企業向けにも生成系AI 「Dynamics 365 Copilot」提供開始
            • Whisper API, ChatGPT API, VOICEVOXを使ってAIと会話する

              概要 マイク入力をWhisper APIで文字起こしし、音声から起こした文字をChatGPT APIに投げて返答をVOICEVOXに渡すことによってChatGPTとの会話を行います。 概要図 リポジトリはこちらです Whisper APIを使用してマイク入力をテキストに マイクからの入力をWhisperで文字起こしをするコードはこちらの記事を参考にさせていただきました。 get_audio_from_micでマイク入力を取得し、Whisper APIを使って文字に起こします def voice_to_text(): audio = get_audio_from_mic() audio_data = BytesIO(audio.get_wav_data()) audio_data.name = 'from_mic.wav' transcript = openai.Audio.transcri

                Whisper API, ChatGPT API, VOICEVOXを使ってAIと会話する
              • マイク入力をWhisperで音声認識

                Whisperを試す Whisperの音声認識が優秀ということで、マイクで試せるようにしてみました。 別に無理して使う必要なかったのですが、諸事上によりDockerを使ってマイクがつながったアプリとソケット通信したりしています。以下みたいな感じです。 リポジトリは以下です。 ほとんど自分のためのメモですが、同じようなことしたい人がいるかもしれないので、簡単に説明を書いておきます。 説明はちょい雑です(すみません)。今後追記したり補足するかも…です。 セットアップ方法 Linux(Ubuntu)前提です。Windows(WSL2)でも多分動くと思います。 マイク マイクは適当なUSBマイクをつなげてください。以下でデバイスを確認できます。 **** ハードウェアデバイス CAPTURE のリスト **** カード 0: Device [USB PnP Audio Device], デバイス

                  マイク入力をWhisperで音声認識
                • ChatGPT IN ACTION 実践で使う大規模言語モデル

                  イベント概要 大規模言語モデル(LLM)を実際にプロダクトや実務に役立つ形で利用している各社が見た使いどころや、実践の上での工夫について学び会うためのイベント 開催時刻: 4/5夜19:00-21:00 タイムテーブル 時間 タイトル 登壇者 19:00-19:10 オープニング・挨拶 19:10-19:20 Chat GPTを使ったシェルコマンドランチャーの開発と工夫」のLT(10分) 株式会社レクター広木大地 https://speakerdeck.com/hirokidaichi/zi-ran-yan-yu-niyoru-sierukomandoraintiya-wanna-noshao-jie 19:20-19:30 「ChatGPTを活用した「AI組織改善アドバイザー」開発の裏側とプロダクト実装の工夫」のLT(10分) 株式会社リンクアンドモチベーシ

                    ChatGPT IN ACTION 実践で使う大規模言語モデル
                  • Writing an open source GPU driver - without the hardware

                    After six months of reverse-engineering, the new Arm “Valhall” GPUs (Mali-G57, Mali-G78) are getting free and open source Panfrost drivers. With a new compiler, driver patches, and some kernel hacking, these new GPUs are almost ready for upstream. In 2021, there were no Valhall devices running mainline Linux. While a lack of devices poses an obvious obstacle to device driver development, there is

                      Writing an open source GPU driver - without the hardware
                    • GitHub - jianfch/stable-ts: Transcription, forced alignment, and audio indexing with OpenAI's Whisper

                      Transcribe audio using Whisper. This is a modified version of :func:`whisper.transcribe.transcribe` with slightly different decoding logic while allowing additional preprocessing and postprocessing. The preprocessing performed on the audio includes: voice isolation / noise removal and low/high-pass filter. The postprocessing performed on the transcription result includes: adjusting timestamps with

                        GitHub - jianfch/stable-ts: Transcription, forced alignment, and audio indexing with OpenAI's Whisper
                      • TechCrunch | Startup and Technology News

                        AI-powered tools like OpenAI’s Whisper have enabled many apps to make transcription an integral part of their feature set for personal note-taking, and the space has quickly flourished as a…

                          TechCrunch | Startup and Technology News
                        • 『ワム!』の 『CLUB TROPICANA』の季節はすぐそこまで・・・ - sugarless time

                          出典:Amazon | Club Tropicana www.sugarless-time.com 『紫陽花の季節に『雨にぬれても』・・・』というタイトルは本文を書き終えたあとに考えたものなんだけど、投稿した後に思い出したが元『Wham!』の『ジョージ・マイケル』さんのこと。 www.sugarless-time.com 『ジョージ・マイケル』さんで多くの人が連想するのが季節感まったくないですけど、『Wham!』として1984年にリリースした『Last Christmas』ですよね。 www.youtube.com その『ジョージ・マイケル』さんの命日が2016年12月25日だったということを思い出し、そして、これから訪れる季節からこの曲を思い出しまた。 www.youtube.com 『Last Christmas』しか知らない人も増えているでしょうし、『Last Christmas』オ

                            『ワム!』の 『CLUB TROPICANA』の季節はすぐそこまで・・・ - sugarless time
                          • ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」 (2ページ目)

                            守屋恵一 ChatGPT本 4冊目出ました!@デジタル系ライター・編集者 / 仕事垢 @moriyakeiichi 昨日自分で試してみて、ビックリした。 これ、Custom Instructionsに発言パターンをてんこ盛りに入れて、音声を差し替えることができれば、好きな俳優やアニメキャラクターと無限にお喋りできる。 技術的には可能なので、Whisperの音声データを差し替えられれば、あるいは、 twitter.com/HeroofChickens… 2023-09-28 17:39:15

                              ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」 (2ページ目)
                            • 話者を区別できる文字起こしツール「CLOVA Note」、キーワードも自動抽出

                              セミナーや会議の内容をテキスト化しておくと後から振り返りやすい。しかし、音声をテキスト化する、いわゆる文字起こしの作業は、長時間にわたるセミナーや参加者が複数いる会議などでは担当者の負担が大きい。そこで、文字起こしツールを利用する人も多いだろう。 筆者も職業柄、インタビューや講演の文字起こしをする機会が多く、文字起こしツールをいくつか使ってきた。現在は、今回紹介する「CLOVA Note(クローバ・ノート)」を仕事の相棒として頼りにしている。 CLOVA Noteは、LINEのAIテクノロジーブランド「LINE CLOVA」によるAI音声認識アプリだ。音声認識エンジンはLINE CLOVAが開発した「CLOVA Speech」が使用されている。2022年5月からベータ版として無料提供が開始された。 スマートフォンアプリ(iOS/Android)を起動し、アプリで録音した後に文字起こしするか

                                話者を区別できる文字起こしツール「CLOVA Note」、キーワードも自動抽出
                              • NVIDIAが音声認識追加や画像検索改善を行ったAIチャットボット「ChatRTX」を公開

                                NVIDIAが、AIチャットボット「ChatRTX」でサポートするLLMを追加して画像検索機能の改善や音声認識機能の追加を行ったことを発表しました。 Build a Custom LLM with ChatRTX | NVIDIA https://www.nvidia.com/en-us/ai-on-rtx/chatrtx/ ChatRTX Adds New AI Models and Features | NVIDIA Blog https://blogs.nvidia.com/blog/ai-decoded-chatrtx-update/ Nvidia’s AI chatbot now supports Google’s Gemma model, voice queries, and more - The Verge https://www.theverge.com/2024/5/1/

                                  NVIDIAが音声認識追加や画像検索改善を行ったAIチャットボット「ChatRTX」を公開
                                • Next.jsとPythonの開発環境を爆速で構築する

                                  はじめに 今回はフロントエンドにNext.js、バックエンドにPythonを採用して、Webサイトの環境構築を行いたいと思います。元々、Whisper APIとVOICEVOXによる合成音声を使用した会話アプリを開発したかったのですがですが、環境構築の段階でかなりのボリュームになった為、一旦記事として共有します。 モノレポについて モノレポとはWebアプリの全てのコード(WebバックエンドやWebフロントエンド)を単一のリポジトリに保存するパターンを指します。 リポジトリを単一化することのメリットは、複数のチームで開発を行う際に、バックエンドとフロントエンドでコードを使い回すことができたり、コードの調査、変更の追跡が容易になる点です。 アプリケーションの概要 今回実装したコードは以下のリポジトリに格納しています。アプリの実装も入ってくるので少し見にくいかもしれませんが、ご容赦ください。 フ

                                    Next.jsとPythonの開発環境を爆速で構築する
                                  • AIに予算20万円以下でピラーレスケースのビジネスPCを組んでもらって分かったこと

                                    ゴールデンウィークの連休に、新しいPCを一式組んでみようという人も多いのではないだろうか。厳しい円安が継続する中で、なかなかPCパーツを購入するタイミングが難しいが、思い立ったら吉日だ。 前回は予算30万円でゲーミングデスクトップPCを生成AIに聞いたが、今回は自作PCではやっているピラーレスケース(角に支柱がなく、内部システムを見ることができるケース)をベースにしたビジネスPCを組んでもらった。 →AIに予算30万円以下でゲーミングPCを組んでもらって分かったこと 手元にPCやスマホさえあれば、時間も場所も問わずいつでも回答してくれるエージェントに投げかけた質問は下記の通りだ。プロンプト(呪文)や問い合わせるタイミングなどによって回答は一定ではないので参考程度に見てほしい。 あなたはPCショップ専門店の店員です。 税込みの予算20万円以内で最新のビジネスPCを作ってください。 必ずピラー

                                      AIに予算20万円以下でピラーレスケースのビジネスPCを組んでもらって分かったこと
                                    • 95ドルのAMD CPUが16GB GPUになり、AIソフトウェアを実行する - 自作ユーザーが解説するゲーミングPCガイド

                                      3年前のAPUをAI用にリサイクル 新しいRyzen 5 5600G(Cezanne)は、Ryzen 5 4600G(Renoir)に代わって、ゲームに最適なCPUの1つとなった。 しかし、あるトリックがRyzen 5 4600Gに新たな命を吹き込み、格安のZen 2 APUをLinux上でAIアプリケーションを実行するための16GBグラフィックカードに変身させた。 誰もがAIを試すためにNvidia H100(Hopper)を購入したりレンタルしたりする予算があるわけではない。 AIに特化したグラフィックス・カードに対する現在の需要では、お金があっても手に入れることができないかもしれない。 幸運なことに、高価なH100やA100(Ampere)、AIに最適なグラフィックカードは必要ない。あるRedditorは、95ドルで販売されているRyzen 5 4600Gで、さまざまなAIワークロー

                                      • オープンなウェブ世界とジェネレーティブAIの終わりなき戦いが始まる|佐々木俊尚

                                        対話型AIのChatGPTが、ついに日本でもスマホで利用できるようになりました。まずはiPhone版だけですが、近いうちにAndroid版もリリースされそうです。 インストールして使ってみると、ウェブ版と同じように有料プランであれば最新のLLM(大規模言語モデル)であるGPT-4が利用できます。 音声入力できるChatGPTアプリは一気に普及するかそしてもうひとつ大きなポイントは、OpenAIの音声認識技術「Whisper」が導入されており、標準で音声入力ができるようになっていること。これからはスマホで気楽にAIに質問し、回答を得るという利用スタイルが定着していきそうです。どのような活用方法があるのか、より良きプロンプト(指示文)はどのようなものなのか、といった点も世界中の人々が猛烈な速度でチャレンジを続けており、可能性は無限に広がっていくでしょう。 その大いなる可能性は、同時に既存のさま

                                          オープンなウェブ世界とジェネレーティブAIの終わりなき戦いが始まる|佐々木俊尚
                                        • ジェネレーティブAIスタートアップまとめ107選【海外の生成系AIサービス】 | 【テックジム】自習型・定額制の格安プログラミングスクール

                                          今思えば、2022年は生成系AIスタートアップが雨後の筍ごとく生成された生成系AI元年でした。 2023年にチャットGPTが広く認知されることで、この分野はゆるぎないものとなりました。 「機械学習系スタートアップまとめ」を書きはじめたのは2020年の春ですから読み比べると「機械学習」分野も大きく変遷していることがわかります。 【2022】注目のAIスタートアップ・ベンチャー企業まとめ114選【国内・海外別】。IT大手のディープラーニングの最新動向。 今回は、生成系AIスタートアップを一社一社調べ直して簡単に紹介してみました。 ささっと読んで、生成系AI業界の全体を俯瞰するのにお使いください。 なお、チャットGPTを活用してサービスを開発したい方は「GTPベース」で画面検索してみてください。 あと、認識違いがあったり、こんな企業・サービスもあるよという方は、@ikiben までお知らせいただ

                                            ジェネレーティブAIスタートアップまとめ107選【海外の生成系AIサービス】 | 【テックジム】自習型・定額制の格安プログラミングスクール
                                          • Come build with us: Microsoft and OpenAI partnership unveils new AI opportunities | The Microsoft Cloud Blog

                                            At OpenAI’s first DevDay Conference on November 6, 2023, Microsoft Chairman and CEO Satya Nadella made a surprise appearance during OpenAI CEO Sam Altman’s keynote to deliver a powerful message: “Our job number one is to build the best systems, so you can build the best models and deliver those to developers.” This was a testament to the deep partnership between Microsoft and OpenAI. We’re excited

                                              Come build with us: Microsoft and OpenAI partnership unveils new AI opportunities | The Microsoft Cloud Blog
                                            • ChatGPTでフランクな翻訳、コード譜付きの作詞、アイディア発想法の応用を試してみたら想像以上に使えそうだった話 - ABEJA Tech Blog

                                              こんにちは。株式会社ABEJA でPM兼DS兼プリセールスと色々な仕事をさせてもらってます道辻です。本記事はABEJAアドベントカレンダー2022の9日目の記事です! 私にとって2022年はテキストから画像生成のstable diffusion、音声認識のWhisper等、遊びがいのある技術がたくさん出てきたわくわくする年でした。(IoT自作してオフィスの温湿度CO2など測定して分析などもやっていたので忙しかったです。) そして、今ChatGPTが流行っています。12/5時点で100万ユーザーが利用しているそうです。今までやりたいなーと思っていたことを試していたらだいたいできてしまったので、他に紹介している人が少なそうなものをいくつか紹介します。 目次 ChatGPTとは ChatGPTで試したこと フランクな翻訳 コード譜付きの歌詞を生成 アイディア発想法への応用 URL画像の表示 最後

                                                ChatGPTでフランクな翻訳、コード譜付きの作詞、アイディア発想法の応用を試してみたら想像以上に使えそうだった話 - ABEJA Tech Blog
                                              • faster-whisperを使ってYoutubeを高速に文字起こしする方法

                                                はじめに みなさんは、Whisper を使って文字起こしをしているでしょうか? Whisper は OpenAI がリリースした text2speech のモデルです。 このモデルは実装を含めて公開されているので、モデルを軽くしたり、あらゆる環境で動かしたり、といった試みが随所で行われています。 今回は、つい先月にリリースされた、faster-whisper のモデルを使って、実際に文字起こしをしてみましょう。 faster-whisper とは OpenAI 公式のモデルを軽量化、独自の最適化により、最大 4 倍の高速化を実現 軽いと評判の Whisper.cpp よりも高速に動作(ただしメモリは若干多め) Whisper.cpp と違って、GPU による高速化の恩恵が受けられる とまあかなり良さそうです。試してみましょう。 Colab で実行 といっても、Colab で動かすだけです。

                                                  faster-whisperを使ってYoutubeを高速に文字起こしする方法
                                                • GMOグループ「ChatGPT」の業務活用を開始 賞金1000万円のコンテストも

                                                  GMOインターネットグループは3月10日、「ChatGPT」の積極的な業務活用を開始したと発表した。グループ全体で活用を推奨し、業務効率化や新サービスの検証などに活用する。 同社の社内調査によると、従業員の73.5%がChatGPTを知っており、40%が利用した経験があった。業務利用は6.3%だったが、これを拡大すべく推進する。 現在、GMOペパボの「教えてAIロリポおじさん」にChatGPTを活用しているほか、社内では文章作成時のタイトルやキャッチコピーのアイデア出し、文章の要約やトンマナ変更、Excel関数の利用、プログラムの生成やデバッグなどに活用できるよう実証を進めている。 関連記事 「りんな」提供元、ChatGPTの技術を製品開発に活用へ 「Azure OpenAI Service」導入 rinnaが大規模自然言語処理モデル「GPT-3」などをクラウドサービス「Microsoft

                                                    GMOグループ「ChatGPT」の業務活用を開始 賞金1000万円のコンテストも
                                                  • ChatGPT技術で喋る車載AIをGMが検討。ナイト2000が実現? | テクノエッジ TechnoEdge

                                                    ガジェット全般、サイエンス、宇宙、音楽、モータースポーツetc... 電気・ネットワーク技術者。実績媒体Engadget日本版, Autoblog日本版, Forbes JAPAN他 米GMが、マイクロソフトとの広範な協力の一環で、OpenAIが開発する人工知能チャットボット「ChatGPT」に使われている技術の自動車への搭載を検討しています。 GM副社長のスコット・ミラー氏は、Reutersに「ChatGPTはあらゆるものに組み込まれるだろう」と述べ、このChatGPTの技術からなるAIチャットボット機能を用いることで、たとえば自動車の取扱説明書に記載されている機能の使い方を説明させたり、ガレージドアの開閉コードなどの機能を操作したり、カレンダーからスケジュールを取り込むといったことができるとしています。 さらに考えられる使用例としては、たとえば近年の自動車はスペアタイヤが省略され、パン

                                                      ChatGPT技術で喋る車載AIをGMが検討。ナイト2000が実現? | テクノエッジ TechnoEdge
                                                    • ChatGPT APIとは?始め方や使用時の注意点、活用事例を紹介 | DXを推進するAIポータルメディア「AIsmiley」

                                                      OpenAIが手掛けるChatGPTが話題になっている最中、2023年3月2日に「ChatGPT API」がリリースされました。テキストだけでなく画像処理機能なども備えた最新のAIモデル「GPT-4」にも対応しているChatGPT APIにより、さまざまなアプリケーションに機能を実装することが可能です。 本記事では、ChatGPT APIの概要や登録方法、トークン利用料金などについて詳しく解説します。実際にChatGPT APIを導入している企業事例もあわせて紹介しますので、自社サービスの拡張やChatGPT連携サービスの活用を検討している方は、ぜひ参考にしてください。 ChatGPTについて詳しく知りたい方は以下の記事もご覧ください。 ChatGPTとは?使い方や始め方、日本語対応アプリでできることも紹介! 「ChatGPT API」とは、OpenAIによる自然言語処理のためのAIモデル

                                                        ChatGPT APIとは?始め方や使用時の注意点、活用事例を紹介 | DXを推進するAIポータルメディア「AIsmiley」
                                                      • ChatGPTのプロンプトとは?効果的なプロンプトの作り方や例を紹介|Udemy メディア

                                                        ChatGPTを使って仕事を効率化したいものの、 思うような回答が得られなくて困る… と困っている方も多いのではないでしょうか。 そんな方に向けて、この記事では ・プロンプト作成のコツ ・ChatGPTの活用例 を紹介します。 ChatGPTプロンプトのコツを押さえて業務効率化を図りましょう。 ChatGPTの「プロンプト」とは? プロンプトとは、コンピューターやAIを操作する際に、ユーザーが入力する命令や指令です。日本語では、「呪文」と呼ばれることもあります。ChatGPTにおけるプロンプトとは、ユーザーがチャットで送信する指示や質問を指します。 ChatGPTのプロンプト作成のコツ 一般的に、ChatGPTは質問に対して無難な回答をする傾向があります。自分が得たい回答をChatGPTに出力させるには、入力するプロンプトに工夫が必要です。ここでは、ChatGPTのプロンプトを作成する際の

                                                          ChatGPTのプロンプトとは?効果的なプロンプトの作り方や例を紹介|Udemy メディア
                                                        • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab

                                                          「ReazonSpeech」とは¶ 「ReazonSpeech」は、レアゾン・ヒューマンインタラクション研究所が開発した高精度な音声認識モデルを中心とするプロダクト群で、それぞれ以下のような特徴があります。 ReazonSpeech音声認識モデル: OpenAI Whisper※に匹敵する高精度な日本語音声認識モデル。商用利用可 ReazonSpeechコーパス作成ツール: TV録画データ等から音声コーパスを自動抽出するソフトウェアツール。商用利用可 ReazonSpeech音声コーパス: 世界最大19,000時間の高品質な日本語音声認識モデル学習用コーパス いずれも無償にて公開 [図] ReazonSpeech音声認識モデル使用例¶ [図] スマホの通話内容をReazonSpeechを使ってリアルタイムで自動文字起こししてslackに記録する例¶ 開発の背景¶ 近年、深層学習を用いた音声

                                                          • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします

                                                            インター・ラボ株式会社(本社:大阪府大阪市、代表取締役:長山 清志)は、Whisperを利用した音声文字起こしAPI、「WhisperAPI」の無償提供を12月15日(木)より開始します。その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いお客様にご利用いただきたいと考えております。また、APIだけではなくプログラミングの知識をお持ちでない方でも、ブラウザで簡単にご利用いただけるwebサービスも提供いたします。 音声認識モデル「Whisper」とは Whisperとは「DALL・E2」、「GPT-3」などを開発しているOpenAIが開発した汎用的な音声認識モデルです。 教師あり学習で68万時間というデータで学習しており、日本語を含む多言語の音声を高精度で文字起こしします。 その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外

                                                              OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします
                                                            • 今後のプロジェクトで Cloud Spanner の導入を検討すべき 3 つの理由 | Google Cloud 公式ブログ

                                                              ※この投稿は米国時間 2020 年 8 月 21 日に、Google Cloud blog に投稿されたものの抄訳です。 データベースは、ほぼすべてのアプリケーションの重要構成要素です。アプリケーションを設計するときは、例外なくアプリケーション データを永続的に保存する必要があります。共有データベースにデータを永続的に保存しなければ、アプリケーションのスケールも基盤ハードウェアのアップグレードも行えません。さらに悲惨なことに、インフラストラクチャに障害が発生すると、すべてのデータがただちに失われます。 信頼性の高いデータベースがあれば、アプリケーションをスケールでき、データの永続性と整合性、サービスの可用性を確保し、システムのサポートが容易になります。データベースは、ほぼすべてのアプリケーションの重要構成要素です。 Google Cloud の Spanner データベースは、Google

                                                                今後のプロジェクトで Cloud Spanner の導入を検討すべき 3 つの理由 | Google Cloud 公式ブログ
                                                              • Amazon EchoやGoogle Homeの対抗馬として開発されたオープンソースの音声アシスタントプラットフォーム「Willow」

                                                                Amazon EchoやGoogle Homeの競合となる音声アシスタントプラットフォームとして開発された、オープンソースのプロジェクト「Willow」が公開されました。Willowは低コストのハードウェアとオープンソースのソフトウェアで動作し、大企業のサーバーに音声データが送信される危険性もないとのことです。 GitHub - toverainc/willow: Open source, local, and self-hosted Amazon Echo/Google Home competitive Voice Assistant alternative https://github.com/toverainc/willow Show HN: Willow – Open-source privacy-focused voice assistant hardware | Hacker

                                                                  Amazon EchoやGoogle Homeの対抗馬として開発されたオープンソースの音声アシスタントプラットフォーム「Willow」
                                                                • ggml.ai

                                                                  GGML - AI at the edge ggml is a tensor library for machine learning to enable large models and high performance on commodity hardware. It is used by llama.cpp and whisper.cpp Written in C 16-bit float support Integer quantization support (e.g. 4-bit, 5-bit, 8-bit) Automatic differentiation Built-in optimization algorithms (e.g. ADAM, L-BFGS) Optimized for Apple Silicon On x86 architectures utilize

                                                                  • OpenAIのChatGPTをApple Watchから使える「watchGPT」がリリース。

                                                                    ChatGPTをApple Watchから使える「watchGPT」がリリースされています。詳細は以下から。 OpenAIは現地時間2023年03月01日、ChatGPTとWhisper APIの提供を開始しましたが、このAPIを利用し、Apple WatchからChatGPTを利用できる「watchGPT」が新たにリリースされています。 Quickly get answers to your questions or generate longer messages without typing. We are excited to introduce the watchGPT app for the Apple Watch! With this app, you can now interact with the famous GPT model right from your wri

                                                                      OpenAIのChatGPTをApple Watchから使える「watchGPT」がリリース。
                                                                    • OpenAI、「ChatGPT」のAPIを提供開始--アプリへの組み込みが容易に

                                                                      印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 話題の人工知能(AI)チャットボット「ChatGPT」は今後、ますます多くの人気アプリやツールに統合されていくだろう。開発元のOpenAIが米国時間3月1日にChatGPTのAPIを提供開始したことで、開発者はChatGPTのさまざまな機能にアクセスできるようになった。 OpenAIは、2022年9月にオープンソース化した音声テキスト変換モデル「Whisper」のAPIも提供開始した。 OpenAIによると、「Snapchat」開発元のSnapや、Instacart、Shopifyなどの企業がすでにChatGPTのAPIを使用しているという。 Instacartはこの会話型AIテクノロジーを使って、ユーザーが「子ども向けの健康的な昼ご飯

                                                                        OpenAI、「ChatGPT」のAPIを提供開始--アプリへの組み込みが容易に
                                                                      • 音声ファイルを簡単に文字起こし&要約!WhisperとChatGPTで実現する方法|カレーちゃん

                                                                        音声ファイルの文字起こしとその要約を、Whisperという文字起こしのライブラリとChatGPTを用いて実現する方法を説明します。 すごく簡単に音声ファイルを要約できるのでとても便利です。 この内容はYoutube動画で説明しており、この記事はその書き起こしです。 1. Whisperでの文字起こしの方法使うだけならとても簡単です。次のコードを実行するだけで、音声ファイルが文字になります。 !pip install git+https://github.com/openai/whisper.git model = whisper.load_model("large") import whisper result = model.transcribe("<音声ファイルのpath>", verbose=True, language='ja') text = result['text']31分の

                                                                          音声ファイルを簡単に文字起こし&要約!WhisperとChatGPTで実現する方法|カレーちゃん
                                                                        • 歩いて読書する

                                                                          最近よく歩きながら読書しているので、そのメモ書きです。 必要なもの 人とぶつからない幅の歩行者用道路 スマートフォン 川沿いは、人が少なく歩きやすい道が多い。 方法 スマホで本を開いて読みながら歩く 物理的な本は片手だと読みにくいので、自分はスマホで読んでいます。 iPhoneみたいなサイズでも、レスポンシブな本なら問題なく読めます。 最近は慣れすぎて、PCのようなモニタサイズがでかいと逆に読みにくく感じます(技術書とかは別ですが)。 KindleやKoboやO’Reillyなどのアプリは大体片手でも扱えます。 その他だと、自分の場合はmubook-honを作って使ってます。 mubook-hon: Dropboxに保存したepubやPDFを読むビューア、Notionにメモや読んでいる位置を記録できるMobile/PC対応のウェブアプリ | Web Scratch いいところ 本を読みなが

                                                                            歩いて読書する
                                                                          • 【アンケート報告】三日月宗近~巴形薙刀編 - Million Notes

                                                                            はじめに 総合 男士別結果報告 三日月宗近(黒羽麻璃央) 小狐丸(北園涼) 石切丸(崎山つばさ) 岩融(佐伯大地) 今剣(大平峻也) 加州清光(佐藤流司) 大和守安定(鳥越裕貴) 和泉守兼定(有澤樟太郎) 堀川国広(阪本奨悟) 蜂須賀虎徹(高橋健介) 長曽祢虎徹(伊万里有) にっかり青江(荒木宏文) 千子村正(太田基裕) 蜻蛉切(spi) 物吉貞宗(横田龍儀) 大倶利伽羅(牧島輝) 髭切(三浦宏規) 膝丸(高野洸) 陸奥守吉行(田村心) 巴形薙刀(丘山晴己) 堀川国広(小越勇輝) 大倶利伽羅(財木琢磨) はじめに こちらは「刀ミュ男士の歌声に関するアンケート」結果報告ページです! マシュマロにて、「刀ミュ男士の中で一番歌声が色っぽいのは誰だと思いますか?」という質問を頂いたものの、びっくりするほど選びきれず(笑) 他の方がどう思ってるか聞いてみたい!という好奇心から、11/3(木)~11/

                                                                              【アンケート報告】三日月宗近~巴形薙刀編 - Million Notes
                                                                            • 🎙️ MacWhisper

                                                                              Quickly and easily transcribe audio files into text with OpenAI's state-of-the-art transcription technology Whisper. Whether you're recording a meeting, lecture, or other important audio, MacWhisper quickly and accurately transcribes your audio files into text. Features Easily record and transcribe audio files on your Mac Just drag and drop audio files to get a high quality transcription Record di

                                                                                🎙️ MacWhisper
                                                                              • Fine-Tune Whisper For Multilingual ASR with 🤗 Transformers

                                                                                For demonstration purposes, we'll fine-tune the multilingual version of the small checkpoint with 244M params (~= 1GB). As for our data, we'll train and evaluate our system on a low-resource language taken from the Common Voice dataset. We'll show that with as little as 8 hours of fine-tuning data, we can achieve strong performance in this language. 1{}^11 The name Whisper follows from the acronym

                                                                                  Fine-Tune Whisper For Multilingual ASR with 🤗 Transformers
                                                                                • Windowsで音声文字起こし MyWhisper(マイウィスパー) - umiyuki - BOOTH

                                                                                  パソコン上でお手軽に音声ファイル(wav, mp3, m4a)を文字起こししてくれるWindowsアプリケーションです。Whisper.cppを利用しています。 GPU(Cuda)、またはCPUでの計算処理が選択できます。GPUでの処理にはCudaをサポートしているNVidiaのGPUを搭載している必要があります。 動画ファイル(avi, mp4)もサポートしています。 ローカル(パソコンの内部)で処理が完結するので、クラウドやAPIよりもセキュリティ面で安心です。 詳細有料のプロ版では全てのWhisperモデルが利用できます。無料版ではLarge(最高品質)モデル以外のモデル(Tiny, Base, Small, Medium)が利用できます。大きなモデルほど精度が高いですが、処理時間が長くなり、消費メモリも大きくなります。 プロ版を購入する前に無料版で動作確認をお願いします。 ファイル

                                                                                    Windowsで音声文字起こし MyWhisper(マイウィスパー) - umiyuki - BOOTH