並び順

ブックマーク数

期間指定

  • から
  • まで

41 - 80 件 / 685件

新着順 人気順

Whisperの検索結果41 - 80 件 / 685件

  • WhisperとChatGPTで文字起こし | ドクセル

    闇のエンジニア/変なデジカメ開発中/ディープラーニング芸人/Raspberry Piとからあげ大好き/はてなブログ書いてます

      WhisperとChatGPTで文字起こし | ドクセル
    • OpenAI API で提供されている モデル まとめ|npaka

      1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデル を提供しています。 ・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。 ・DALL-E : 自然言語から画像を生成・編集するモデル ・Whisper : 音声をテキストに変換するモデル ・Embeddings : 埋め込み (ベクトル表現) を生成するモデル ・Codex : コードを理解および生成するモデル ・Moderation : センシティブおよび 安全でない文章を検出するモデル ・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu

        OpenAI API で提供されている モデル まとめ|npaka
      • writeout.ai

        Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.

          writeout.ai
        • 俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ

          こちらはエムスリー Advent Calendar 2023 1日目の記事です。 Overview エムスリーエンジニアリンググループ AI・機械学習チームでソフトウェアエンジニアをしている中村(po3rin) です。趣味は麻雀でフリー雀荘で毎年200半荘以上打ちます。好きな麻雀プロは園田賢さんです。 麻雀を始めるときに一番の障壁になるのは点数計算ではないでしょうか? 特に符計算が初心者の関門のようです。一方私のような初中級者でも突然のレアな点数申告にまごつくことがあります。 そこで、今回はその人に合った麻雀の点数計算問題(主に符計算が焦点となる問題)を生成して、自分で点数計算&点数申告の練習をする方法を探求したのでその紹介をします。麻雀用語が少しだけ登場するので、対象読者は麻雀を少しでもかじったことのあるエンジニアの方です。 Overview 麻雀の点数計算の難しさ 現状の点数計算の練習

            俺が考える最強の「麻雀点数申告練習アプリケーション」を作ってみる ~ Pythonによる麻雀点数計算問題の自動生成と音声による点数申告 ~ - エムスリーテックブログ
          • 高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉

            どうもこんにちは、あんどう(@t_andou)です。 今回はOpenAIの高精度な文字起こしAI「whisper」を試してみました。 ただ試すだけでは面白くないのでもう少し実用的なことを…と言うことで、Youtube用の字幕を作ってみました。 実行環境 使用した動画と結果 まずはモデルごとに精度確認 small 処理時間 結果 所感 medium 処理時間 結果 所感 large 処理時間 結果 所感 使用した動画と結果その2 最後に 実行環境 GoogleColabでGPUはT4でした。 使用した動画と結果 以前、リアルな顔がしゃべるAIを作ったので、その動画を使います。 声もAIによるもののため、僕の耳には聞き取りやすいですが、whisperにとってはどうでしょうか。気になります。 (ちなみに、この動画内で話しているニュースの文章もAIによる生成物です。) www.youtube.co

              高精度な文字起こしAIでYoutubeの字幕を作ってみた - ニートの言葉
            • ポッドキャストをAIで書き起こし「LISTEN」 近藤淳也氏が立ち上げ

              AIを使ってポッドキャスト番組を自動で文字起こしするサービス「LISTEN」β版を、はてな創業者の近藤淳也氏が公開した。 OpenAIが提供する書き起こしAPI「Whisper」を使い、配信済みのポッドキャストの内容を文字起こしして公開する。テキストを指定してその部分から音声を再生することもできる。 番組にコメントを書き込んだり星を付けて出演者と交流する機能も備えた。 約20人のポッドキャスターが既に登録しており、徐々に拡大していく。 Discordコミュニティでユーザーからのフィードバックなどを受け付けている。 関連記事 OpenAI、「ChatGPT API」と企業向け専用容量プランの提供開始 「gpt-3.5-turbo」も発表 OpenAIは「ChatGPT API」と「Whisper API」の提供を開始した。ChatGPT APIの価格は1000トークン当たり0.002ドル。A

                ポッドキャストをAIで書き起こし「LISTEN」 近藤淳也氏が立ち上げ
              • 無料で始めるAmazon CodeWhisperer on VSCode(Github Copilotと同等の性能?) - Qiita

                無料で始めるAmazon CodeWhisperer on VSCode(Github Copilotと同等の性能?)AmazoncopilotCodeWhisperer 現在の AIを一言で説明すると・・・ フミコ・フミオさんはTwitterを使っています: 「ほぼ全員がご高齢者の会社上層部からの「対話型AI とは何かその功罪について簡潔に分かりやすく出来たら一言で説明しろ」という難題にヤケクソで「ドラえもんです」と答えたら「便利だけど取扱注意ということだな」とほぼ正解な認識をしてくれたので藤子・F・不二雄先生は偉大すぎる。」 / Twitter Github Copilot と Amazon CodeWhisperer の比較 現時点では Github Copilot の方が使いやすい。 単純な機能だと同じくらいだが、 Github Copilot は、コマンドパレットがあるので、その

                  無料で始めるAmazon CodeWhisperer on VSCode(Github Copilotと同等の性能?) - Qiita
                • 開発に使える?ChatGPTとプロンプトエンジニアリング - Qiita

                  こんにちは!逆瀬川 (@gyakuse) です! 今日は開発に使うときのプロンプトの例を紹介します。ただ、これは一例に過ぎず、もっと雑な表現や工夫されたプロンプトを使っても良いでしょう。大事なのは、どのように情報を与えるとうまくin-context learningしてくれそうか、ということを考えながらプロンプトを渡してあげることだと思います。 だいじなこと ChatGPTのGPT-4を使いましょう ChatGPTをそのまま使う場合、オプトアウト申請し、受理されたことを確認しましょう オプトアウトしていても他者に会話履歴が見える状態になる等のトラブルもあったため、API経由のほうが安全です 会社のプログラム等は情シス部門と連携を取り、会社のポリシーを検討をしましょう 実装を依頼するプロンプト 「行いたいこと」「処理の流れ」「参照ドキュメント」という順で書いてあげると良いです。 サンプルプロ

                    開発に使える?ChatGPTとプロンプトエンジニアリング - Qiita
                  • ジェネレーティブAIで美樹さやかさんを錬成できるのか?

                    ぶっちゃけ、最近はひたすらSD関係のディスコードに張り付くだけの日々だった。 だって毎日しっちゃかめっちゃかなドラマが起きてて面白すぎるから。 面倒だからここでまたイチから経緯を書いたりしないが、とにかくEmad氏の謝罪によって揉め事もひと段落したようだ。 私もいつまでもディスコなんか監視してる場合ではない。 ハッキリ言って、今の自分が画像AIに相当のめり込んでる事を認めざるを得ない。 しかし、2週間前にブログ記事を書いた段階では、自分がどういう風に画像AIにコミットしていけばいいのかサーパリ分かってなかった。 というか、世の中で何が始まりつつあるのかを正確に捉え切れてなかったのだ。 それが何か?というと、世界でジェネレーティブAI(GAI)の時代が始まりつつあるという事だ。 アメリカを代表するベンチャーキャピタルである、セコイアキャピタルが、「GAIが今激アツ!!」みたいな記事を9/20

                    • Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO

                      構成 構成としては、下記の通りです。 Connectのフローの詳細は下記の通りです。 例として、発話で住所を認識させる処理の流れは以下のとおりです。 コンタクトフロー内で「メディアストリーミングの開始」ブロックを使って、Kinesis Video Stream(KVS)への音声のストリーミングを開始します。 顧客は、住所を含めた発話をします。 「顧客の入力を保存する」ブロックで、顧客が特定の番号を押すと、ストリーミングを終了します。 「AWS Lambda関数を呼び出す」ブロックを使い、LambdaでKVSからデータを取得します。取得したデータをWAV形式に変換し、Whisper APIで文字起こしします。文字起こし内容から、GPT-4 Turboで住所のみを抽出します。 プロンプト再生で、住所のみを音声出力します。 以下の図は、電話での対話の流れを示しています。 前提 2023年11月時

                        Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO
                      • ひたちなかの新フェスに行ったこと - WASTE OF POPS 80s-90s

                        23日、2日間のうち1日だけですが、ROCK IN JAPANが去ったひたちなか市で新たに立ち上がった新フェス「LuckyFM Green Festival」に行ってまいりました。 事前からいろいろ確認したりしていましたので、ある程度時系列で。 <事前> ROCK IN JAPANが、それまでのひたちなかでの開催ではなく、千葉市の蘇我スポーツ公園で開催されることが発表されたのが2022年1月5日の正午。しかしその数時間後には具体的な内容等の発表はなかったものの、国営ひたちなか海浜公園で今夏新フェスを開催します、という声明が。 具体的な日程とフェス名、第1弾ラインナップが発表されたのは4月28日。 開催まで3か月を切った中での告知開始というのは新しいフェスとしては致命的なほど遅く、かつ発表された7/23-24という日程は、浜松市の渚園でFUNDAY PARK FESTIVAL、大阪市舞洲でO

                          ひたちなかの新フェスに行ったこと - WASTE OF POPS 80s-90s
                        • GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること

                          GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること2023.11.08 17:009,334 Maxwell Zeff・Gizmodo US [原文] ( mayumine ) これは嬉しい進化です。 OpenAIの開発者向けカンファレンス「DevDay」で、サム・アルトマンCEOよりGPT-4 Turboの公開が発表されました(こちらの記事もどうぞ)。 いちばん大きなアップデートは、今回で扱えるトークン数が128Kになって、従来の16倍となる300ページを超える長い文書を1つのプロンプトに入れられるように。本をまるごと一冊読み込ませられるようになったということです。長い文章を要約させたり、気になる箇所を教えてもらったりできるようになったことで、活用の幅はさらに大きく広がると思います。 さらにGPT-4 Turboでは、JSONモードが実装され、JS

                            GPT-4 Turboでいちばん嬉しいのは、300ページ相当の長文をまるっと読み込めること
                          • ロック好きなら高校生までに聴いておきたい古典100(ハードロックヘヴィメタル含む編)

                            ハードロック、ヘヴィメタルが好きな高校生諸君、ネットの海に出るとスラッシュメタル四天王とか、プログレがどうとか、アニソンはメタルだとか、よくわからない言葉を目にすると思う。 そんなときは歴史を知ろう。故きを温ねて新しきを知る。以下の100枚を聞けばだいたいわかるようになるぞ。 これで物知り顔で蘊蓄垂れるおじさんにドヤ顔をやり返してやろう。 (おおむねアーティスト名アルファベット、五十音順。国内海外順不同。原則1アーティスト1枚) 1. Whatever People Say I Am, That's What I'm Not / Arctic Monkeys 2.Relationship Of Command / At The Drive-In 3.Slaughter Of The Soul / At The Gates 4.METAL RESISTANCE / Baby Metal 5.

                              ロック好きなら高校生までに聴いておきたい古典100(ハードロックヘヴィメタル含む編)
                            • AIこより爆誕!?の裏側|カバー株式会社 公式note

                              こんこよ~🧪 カバー株式会社CTO室エンジニアのAです。 カバー株式会社には2023年4月に新卒で入社し、第1回COVER Techを執筆したKさんの下で、タレントの皆様が日々のYouTube配信などで使用するホロライブアプリの開発に携わっています。 また、ここ数か月はそれと並行してAIこよりシステムの開発を担当してまいりました。 この記事では開発したシステムの概要についてご紹介します。 開発経緯AIこよりシステムの開発に至った経緯について。 まず社内に生成AIの可能性や関連技術の検討をしたいという需要がありました。そこへ、こよりさんからご自身のAIを作りたいというご要望をいただいたため、それがきっかけとなり、こよりさんの全面的なご協力の下でAIこよりシステムの開発が始まりました。 システム概要今回開発したものは、AIシステムへの入出力を操作し配信画面に映すフロントアプリと、各種外部AP

                                AIこより爆誕!?の裏側|カバー株式会社 公式note
                              • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

                                こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…?と思っていたのですが… ですが… … … … おお!?(上記はGitHubにあるWER: Word Error Rateのグラフです) これは!? これは結構良さげな数値を出している!?(たぶん) ってことで元音声屋さんとしては、これは試すしかない!ということで動かしてみました!(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け 今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試

                                  OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
                                • OpenAI API で提供されている モデル まとめ|npaka

                                  「OpenAI API」で提供されている「モデル」をまとめました。 ・Model - OpenAI API 1. OpenAI API で提供されている モデル「OpenAI API」で提供されている「モデル」は、次のとおりです。 ・GPT-4o : GPT-4よりも安価で高速な、最も先進的なマルチモーダルフラッグシップモデル ・GPT-4 : GPT-3.5を改善し、自然言語やコードを理解し、生成できるモデル ・GPT-3.5 : GPT-3を改善し、自然言語やコードを理解し、生成できるモデル ・DALL-E : 自然言語から画像を生成および編集できるモデル ・TTS : テキストを自然な音声に変換できるモデル ・Whisper : 音声をテキストに変換できるモデル ・Embedding : テキストをベクトル表現に変換できるモデル ・Moderation : テキストが機密または安全か

                                    OpenAI API で提供されている モデル まとめ|npaka
                                  • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

                                    OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

                                      OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
                                    • マイクロソフトが法人向けソフトウェア値上げ 20%アップ

                                      日本マイクロソフトは12月6日、法人向けソフトウェアとクラウドサービスを値上げすると発表した。日本円の為替変動によるもので、2024年4月以降に現行価格から20%引き上げるという。対象サービスは具体的に書かれていないが、一律での値上げになるとみられる。 関連記事 Windows 11にアップグレードできないPC、国内に2000万台 “10サポート終了時”でも1000万台近く残存か 日本マイクロソフトが、「Windows 10」のサポート終了に向けた国内のWindows OSの利用状況を明かした。国内のコンシューマ市場にあるWindows PC約4800万台のうち、現時点で約2000万台が「Windows 11にアップグレードできないPC」だという。2年後の2025年10月にWindows 10のサポート終了が迫る中、PCの買い替えを推進しても“10のままのPC”は多数残りそうだ。 マイクロ

                                        マイクロソフトが法人向けソフトウェア値上げ 20%アップ
                                      • 「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る

                                        「サイバーパンク2077」をプレイしたというエンジニアのマルチン・エランコウスキ氏が、同作で登場するリアルタイム翻訳システムのような「話者の上にリアルタイムで会話内容が表示され翻訳まで行ってくれる翻訳システム」の開発に取り組んでいます。 GitHub - elanmart/cbp-translate https://github.com/elanmart/cbp-translate エランコウスキ氏は「話者の上にリアルタイムで会話内容が表示され翻訳まで行ってくれる翻訳システム」を開発するにあたり、以下のような条件を処理できるシステムを構築することにしたそうです。 ・ショート動画を処理可能 ・複数のキャラクター(話者)の会話内容を翻訳可能 ・英語とポーランド語の両方の音声を認識・文字起こし可能 ・会話を任意の言語に翻訳可能 ・各フレーズを話者に割り当て可能 ・画面に話者を表示する ・サイバー

                                          「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る
                                        • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

                                          画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

                                            無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
                                          • インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog

                                            地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 なんだかAIって流行ってますよねー こんにちわ。九州支社で細々と遊んで検証業務にいそしんでいるとみーです。 2022年3月から、どーしても「名前だけ知ってる状態」ってのにもやもやしていて、Deeplearningに手を付けたものの、あまりに内容が奥深すぎて沼にドはまりして周囲に「たすけてぇ、たすけてぇ」って叫んでいる素敵な日々を過ごしています。 取りあえず画像処理としてディープフェイク、NLP(Natural Language Processing:自然言語処理)として簡易チャットボ

                                              インフラ一筋のおじさんが画像生成AI“Stable-Diffusion”を読み込んでみる件 | IIJ Engineers Blog
                                            • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day

                                              OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。 配信中のpodcast番組 白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。 最初に結論 インストール 実行方法 結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果 まとめ 追記 カタカナ英語 完全制覇 whisperくん せんでんせんでん 最初に結論 whisperは異なるモデルサイズが5種が利用可能であ

                                                音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                                              • YouTubeの文字起こし、youtube-transcript-apiで簡単に取得でき、LangChainでLLMに入力できる! - nikkie-ftnextの日記

                                                はじめに 夢見ていた nikkieです。 最近LangChainに執心ですが、今回は「こんなこともサクッとできちゃうの!?」という個人的ビッグニュースをアウトプットします🔥 目次 はじめに 目次 YouTubeの文字起こしをこんなに簡単に取得できちゃうの!? 素振り:LangChainでYouTube動画の文字起こしを取得する 動作環境 文字起こし取得 ChatGPTに要約をお願い youtube-transcript-api 終わりに YouTubeの文字起こしをこんなに簡単に取得できちゃうの!? 話題の つくりながら学ぶ!AIアプリ開発入門 - LangChain & Streamlit による ChatGPT API 徹底活用 を眺めていたnikkie氏。 Chapter 07「Youtube動画の要約をしよう」を読んでいると YouTubeの動画の文字起こし(transcript

                                                  YouTubeの文字起こし、youtube-transcript-apiで簡単に取得でき、LangChainでLLMに入力できる! - nikkie-ftnextの日記
                                                • Introducing the ChatGPT app for iOS

                                                  The ChatGPT app syncs your conversations, supports voice input, and brings our latest model improvements to your fingertips. Since the release of ChatGPT, we've heard from users that they love using ChatGPT on the go. Today, we’re launching the ChatGPT app for iOS. The ChatGPT app is free to use and syncs your history across devices. It also integrates Whisper, our open-source speech-recognition s

                                                    Introducing the ChatGPT app for iOS
                                                  • ChatGPTに“シークレットモード”機能追加 企業向けプランも計画中

                                                    米OpenAIは4月25日(現地時間)、AIチャットサービス「ChatGPT」に、チャット履歴を保存しない機能を追加すると発表した。ユーザー設定で「Chat Histroy & Training」をオフにすれば、AIとの会話はモデルのトレーニングに使われず、サイドバーにも表示されない。 この機能は同日からすべてのユーザーに展開される(本稿執筆時点で筆者の環境ではまだ表示されない)。 OpenAIは数週間前に履歴を保存しないオプトアウトを可能にしているが、Googleフォームから申請する必要があった。 新たな機能では、設定画面でいつでも変更できる。なお、チャット履歴を無効にしても、不正行為監視の目的で会話は30日間保持される。 OpenAIはまた、ChatGPTの新たなプラン「ChatGPT Business」も発表した。「データをより詳細に管理する必要のある専門家や、エンドユーザーの管理が

                                                      ChatGPTに“シークレットモード”機能追加 企業向けプランも計画中
                                                    • OpenAI、「ChatGPT API」と企業向け専用容量プランの提供開始 「gpt-3.5-turbo」も発表

                                                      会話型AIサービス「ChatGPT」などを手掛ける米OpenAIは3月1日(現地時間)、ChatGPTと音声テキスト変換AI「Whisper」のAPI提供を開始したと発表した。システム最適化で実現したコストの90%削減(2022年12月比)を価格に反映させたとしている。 ChatGPT APIのエンジンは「GPT-3.5」ではなく、ChatGPT製品で使われているものと同じ「gpt-3.5-turbo」(gptはなぜか小文字)。価格は1000トークン(1000トークンは英語の場合およそ750ワード相当)当たり0.002ドルで、これは既存のGPT-3.5モデルより10倍安い。 gpt-3.5-turboは、一連のトークンとして表される非構造化テキストをそのまま使う従来モデルと異なり、テキストを一連のメッセージとメタデータとしてChatGPT APIにフィードする「ChatML」(Chat M

                                                        OpenAI、「ChatGPT API」と企業向け専用容量プランの提供開始 「gpt-3.5-turbo」も発表
                                                      • TechCrunch | Startup and Technology News

                                                        AI-powered tools like OpenAI’s Whisper have enabled many apps to make transcription an integral part of their feature set for personal note-taking, and the space has quickly flourished as a…

                                                          TechCrunch | Startup and Technology News
                                                        • Mozillaが「秘密にまみれた大企業のAI」を打破するべくオープンなAI開発企業「Mozilla.ai」を設立

                                                          Firefoxなどの開発で知られるMozillaが、オープンソースでのAIエコシステム構築を目指すスタートアップ「Mozilla.ai」の設立を発表しました。Mozillaからの投資額は3000万ドル(約39億円)に上る見込みです。 Mozilla.ai https://mozilla.ai/ Introducing Mozilla.ai: Investing in trustworthy AI https://blog.mozilla.org/en/mozilla/introducing-mozilla-ai-investing-in-trustworthy-ai/ AIに関する研究は長年にわたって続いてきましたが、2022年には「Stable Diffusion」「Midjourney」「DALL・E」などの画像生成AIやチャットAI「ChatGPT」、文字起こしAI「Whisper」

                                                            Mozillaが「秘密にまみれた大企業のAI」を打破するべくオープンなAI開発企業「Mozilla.ai」を設立
                                                          • GPT-4 API general availability and deprecation of older models in the Completions API

                                                            Starting today, all paying API customers have access to GPT-4. In March, we introduced the ChatGPT API, and earlier this month we released our first updates to the chat-based models. We envision a future where chat-based models can support any use case. Today we’re announcing a deprecation plan for older models of the Completions API, and recommend that users adopt the Chat Completions API. GPT-4

                                                              GPT-4 API general availability and deprecation of older models in the Completions API
                                                            • GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み

                                                              ChatGPTやBardなどで利用されているチャットAIは、トレーニングだけでなく動作させるのにも数十~数百GBのVRAMなど非常に高いマシンスペックを要求するのが一般的です。そうした状況を変えるべく、GPU不要でチャットAIを動作させるライブラリ「GGML」の開発が進められています。 ggml.ai http://ggml.ai/ ggerganov/ggml: Tensor library for machine learning https://github.com/ggerganov/ggml GGMLの特徴は下記の通り。 ・Cで記述 ・16bit floatをサポート ・4bit、5bit、8bitの整数での量子化をサポート ・自動微分 ・「ADAM」「L-BFGS」という最適化アルゴリズムを搭載 ・Appleシリコンへの対応&最適化 ・x86アーキテクチャではAVXおよびAVX

                                                                GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み
                                                              • デザイナーの仕事は AI でラクになる?実際に試してみた|Goodpatch Blog グッドパッチブログ

                                                                こんにちは。Goodpatch UIデザイナーの金谷です。 最近、ChatGPTで話題沸騰のAI。機械学習、ディープラーニングなどの技術の進歩が著しく、自然言語処理、画像認識、音声認識などの分野で、驚異的な精度と高速な処理能力を発揮しています。 ChatGPTにいろいろな「仕事」をさせる実験が流行っていますが、私自身もAIに負荷が高い(面倒)な作業を肩代わりしてもらえないか、実験をしてみたくなりました。 個人的な願いですが、AIの活用によって業務効率が飛躍的に向上するといいなと考えています。より創造的なタスクに時間をかけられ、品質の高いものを生み出せたり、人間が意思決定をする上で、十分な情報や条件がすぐにそろったり。 というわけで、デザインのワークフローにおけるどんな課題を解決できるのか、順に追って考えてみたいと思います。 Webアプリ・モバイルアプリデザイナーのワークフローごとに面倒な作

                                                                  デザイナーの仕事は AI でラクになる?実際に試してみた|Goodpatch Blog グッドパッチブログ
                                                                • LISTEN

                                                                  アート ビジネス コメディ 教育 小説 行政 歴史 健康/フィットネス キッズ/ファミリー レジャー 音楽 ニュース 宗教/スピリチュアル 科学 社会/文化 スポーツ テクノロジー 事件/犯罪 テレビ & 映画 $wire.selectEpisode(episodes[index].id) ); $watch('currentTime', time => { if (time > 0 && (Math.floor(time / 10) != Math.floor(lastPosition / 10))) { lastPosition = time; $wire.updatePosition(time); } }); "> { return fileType.startsWith(acceptedType); }); if (!matched) { valid = false; break;

                                                                    LISTEN
                                                                  • Vtuberにも人気のAIボイスチェンジャーが新音声変換エンジンを追加し、Voidol 2へ。声は自在に作り込む時代に|DTMステーション

                                                                    自分の声をAI機能でアイドルの声やキャラクタの声などにリアルタイムに変換するユニークなソフトとして、これまでも何度か紹介してきたVoidol。これはクリムゾンテクノロジー株式会社が開発するリアルタイム音声変換技術「リアチェン voice」を搭載したアプリケーションで、VTuberやゲーム実況などの世界でも幅広く使われているWindowsおよびMacで動作するソフトとなっています。 そのVoidolがこれまでのAIリアルタイム音声変換機能に加えて、まったく新たな音声変換エンジンを搭載し、Voidol 2へとメジャーバージョンアップすることが関係者への取材から分かりました。正式な発表・発売は10月20日になるとのこと。税込み価格は13,200円(12月26日までは発売記念価格の8,800円)が予定されています。今回Voidolに加わった最大のポイントは、声をリアルタイム処理でシンセサイジングす

                                                                      Vtuberにも人気のAIボイスチェンジャーが新音声変換エンジンを追加し、Voidol 2へ。声は自在に作り込む時代に|DTMステーション
                                                                    • 話題の「ChatGPT」をLINEで使える「AIチャットくん」、リリース3日で累計20万ユーザー突破

                                                                      ソフトウェア開発を手掛けるpicon(東京都渋谷区)は3月6日、対話型AI「ChatGPT」のAPIを活用したLINEbot「AIチャットくん」の累計ユーザー数が5日に20万人を超えたと発表した。 AIチャットくんは2日にサービスを開始。ユーザーはLINE上でChatGPTの機能が使える。無料で使う場合は1日5回までメッセージを送信可能。月額680円のプレミアムプランに加入すれば無制限に利用できる。 piconによれば、子育ての相談や物語の制作、旅行プランの作成などに利用する人が出ているという。ChatGPTを巡っては、提供元の米OpenAIが1日(現地時間)にAPIの提供を開始。さまざまな企業・個人による利用が広がっている。 関連記事 ChatGPT、美少女になる 立体AIキャラと魔合体でスムーズにおしゃべり Gateboxのデモ動画が話題 3月2日(日本時間)に公開された「ChatGP

                                                                        話題の「ChatGPT」をLINEで使える「AIチャットくん」、リリース3日で累計20万ユーザー突破
                                                                      • OpenAI、次世代AIモデル「GPT-4o」を発表

                                                                        日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一歩です。このモデルにより、コラボレーションがはるかに自然で簡単になります」と述べました。 「GPT-4o」の主な特徴を以下にまとめました。 他のモデルを凌駕する性能 GPT-4oは、OpenAIの以前のモデルであるGPT-4 Turboや、ライバル会社のClaude 3 Opusなどの大規模言語モデルと比較して、頭ひとつ抜けた性能向上を実現しました。サム・アルトマンCEOは、今年4月に "Chatbot Arena" でgpt2というコードネームでテストされていた

                                                                          OpenAI、次世代AIモデル「GPT-4o」を発表
                                                                        • ReazonSpeech - Reazon Human Interaction Lab

                                                                          ReazonSpeech¶ ReazonSpeechは、世界最大のオープン日本語音声コーパスを構築するプロジェクトです。 日本語音声技術の推進を目的として、35,000時間の日本語音声コーパスを公開しています。 音声認識モデル・コーパス作成ライブラリをオープンソースライセンスで配布しています。

                                                                          • superwhisperでの音声入力を試す

                                                                            superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                                                                              superwhisperでの音声入力を試す
                                                                            • OpenAI、「GPT-4」「DALL・E」「Whisper」などのAPIを一般提供

                                                                              印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます OpenAIは米国時間7月6日、有料版「ChatGPT API」の全ユーザーに「GPT-4」へのアクセスを提供すると発表した。同社は3月にChatGPT APIをリリースし、6月にアップデートを提供していた。また、「Completions API」の旧モデルを非推奨(deprecation)とする計画も発表し、「Chat Completions API」への移行を推奨するという。 同社によると、GPT-4は最も高機能なモデルとなり、GPT-4を活用した革新的製品が日を追うごとに増えている。6日より、有料版の支払い履歴がある開発者は、8kのコンテキスト長でGPT-4 APIを利用できる。新しい開発者には7月末までにアクセスを提供し、その後

                                                                                OpenAI、「GPT-4」「DALL・E」「Whisper」などのAPIを一般提供
                                                                              • Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる! - Qiita

                                                                                こんにちは!逆瀬川 (https://twitter.com/gyakuse)です! 今日は議事録の音声からの書き出しとサマリの自動生成を行います。 概要 会議音声(wavとかmp3ファイル)からWhisperを用いて書き出しを行い、GPT-3.5でサマリを自動生成します。 会議音声としていますが、べつにどんな音声でも大丈夫です。 Colab whisper.cpp版(処理に動画秒数×10倍程度の時間がかかりますがGPU不要です) whisper.fp16版(処理は動画秒数/4程度の時間で済みますがGPU必須です) 使い方 OpenAIのAPIキーを貼り付け ランタイム > すべてのセルを実行から実行し、最初の処理の下に出てくるファイル選択で録音ファイルを選択します ひたすら待ちます 実装 Whisperの軽量化 Whisperの軽量化としては、cpp実装のwhisper.cppがあります

                                                                                  Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる! - Qiita
                                                                                • 「LLM」を活用したプロダクト開発に必要な能力とは何か “機械学習の民主化”でますます注目される「MLPdM」の重要性

                                                                                  大規模言語モデル(LLM)を、実際にプロダクトや実務に役立つかたちで利用している各社が見た使いどころや、実践の上での工夫について学び合うためのイベント第二弾。今回のテーマは「大規模言語モデルがつくる新しい顧客体験」。ここで登壇したのは、株式会社LayerXの松村優也氏。機械学習の民主化とMLPdMの重要性について発表しました。 LayerX社・機械学習チームのマネージャーの松村優也氏 松村優也氏:それでは、LayerXの松村優也が「機械学習エンジニアから見るプロダクト開発におけるLLM」を副題として、「機械学習の民主化とMLPdMの重要性」というタイトルで10分お話しします。お願いします。 簡単な自己紹介ですが、あらためて、松村です。(スライドの)右上の黒いアイコンでよくSNSをやっています。「Twitter」などのIDはご覧のとおりです。 バックグラウンド的には、もともと京都大学で情報検

                                                                                    「LLM」を活用したプロダクト開発に必要な能力とは何か “機械学習の民主化”でますます注目される「MLPdM」の重要性