Whisperの人気記事 25件 - はてなブックマーク

1 - 25 件 / 25件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

Whisperの検索結果1 - 25 件 / 25件

AI 激動の年！2022年の人工知能10大トレンドと必読論文
- 522 users
- ja.stateofaiguides.com
- テクノロジー
- 2023/01/02
- AI
- あとで読む
- 論文
- 学習
- 研究
- 人工知能
- トレンド
- 言語
- ChatGPT
- 画像
文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
- 520 users
- gigazine.net
- テクノロジー
- 2023/03/09
会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。すると、GitHubアカウントでのサインインを求められます
- AI
- 文字起こし
- あとで読む
- webサービス
- Whisper
- アプリ
- 音声
- 文章
- 人工知能
- OpenAI
超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- 449 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://
- AI
- あとで読む
- 日本語
- 音声認識
- 音声
- voice
- 技術
- フリーソフト
- コーパス
- 機械学習
時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。｜にょす
- 443 users
- note.com/nyosubro
- テクノロジー
- 2024/10/05
みなさん、こんにちは！9月は久しぶりに個人開発をしてました。今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です！「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え？大丈夫なの？」って感じですよね笑でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います！「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能（10時間でも100時間でも！）使いやすさにこだわった機能（コピー、シェア、自動タイトル生成など）「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げますそして、無
- AI
- あとで読む
- アプリ
- webサービス
- 文字起こし
- 開発
- Gemini
- 無料
- 音声
- プログラミング
文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
- 396 users
- blog.takuya-andou.com
- テクノロジー
- 2022/10/02
どうもこんにちは、あんどう（@t_andou）です。前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。「Youtubeの」と書いていますが、実際はどの動画でも対応してます。前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロードここにドラッグ＆ドロップでアップできます大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更ファイル名に合わせて変更してください 5.全セルを実行あと
- AI
- あとで読む
- youtube
- 文字起こし
- 動画
- ツール
- 言葉
- GPU
- google
- 無料
OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
- 333 users
- gigazine.net
- テクノロジー
- 2022/09/22
画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン
Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び｜にょす
- 333 users
- note.com/nyosubro
- テクノロジー
- 2023/08/19
日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました！しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です！（笑）シャべマルの紹介具体的には、、絵文字で見返せるメモアプリあんまりないですが、良いですよ…！音声入力でメモ内容を作成。かなり高精度な音声認識モデル（Whisper）を用いているので、想像以上にちゃんと文字起こししてくれます！「今日あったこと」など、日記として利用するのもオススメです。1日を振り返る機会になって、それが後から振り返りできるので、あの時こんなこと考えていたなー、といった発見につながるはずです！そして個人的にここが目玉なのですが、文字起こしされたメモには、「タイトル」「絵文字アイコン」「感情アイコン」「カテゴリ」が自動で紐づきます！これ何が良いかというと、圧倒的に見返しやすくなるんですよね
- ChatGPT
- あとで読む
- アプリ
- AI
- メモ
- 開発
- Whisper
- function
- 記録
- webサービス
超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
- 322 users
- gigazine.net
- テクノロジー
- 2023/01/20
東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R
- AI
- あとで読む
- 音声認識
- webサービス
- voice
- Python
- GIGAZINE
- 人工知能
- techfeed
- 音声
自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告
- 286 users
- gigazine.net
- テクノロジー
- 2022/11/17
AI研究団体のOpenAIが開発した「Whisper」は非常に高い精度で録音から文字起こしを行うAIモデルで、オープンソースで無料公開されています。エンジニアのロバー・ダム氏が自身のブログで、毎日スマートフォンに行動を逐一吹き込み、その録音をWhisperで文字起こしすることで「全自動口述日記」を残すことができるシステムを試した結果について報告しています。 I record myself on audio 24x7 and use an AI to process the information. Is this the future? https://roberdam.com/en/wisper.html ダム氏が全自動口述日記を思いついたのは、以前から「1TB超えのストレージを内蔵したスマートフォンが登場すれば、24時間365日録音し続けることが可能なのではないか」と考えていたことから
- AI
- あとで読む
- 生活
- 文字起こし
- エンジニア
- Lifelog
- google
- 機械学習
https://twitter.com/hiraoka_dx/status/1638658560170274818
- 284 users
- twitter.com/hiraoka_dx
- テクノロジー
- 2023/03/23
- ChatGPT
- あとで読む
- AI
- 仕事
- slack
- 自然言語処理
- Zoom
- api
- twitter
https://twitter.com/buffett_code/status/1605488460659392514
- 281 users
- twitter.com/buffett_code
- テクノロジー
- 2022/12/21
PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
- 272 users
- tadaoyamaoka.hatenablog.com
- テクノロジー
- 2022/10/16
PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan
- python
- あとで読む
- 文字起こし
- AI
- whisper
- PC
- プログラミング
- 音声
- 技術
- 音声認識
「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた！」――急遽テレワークを導入した中小企業の顛末記（118）【急遽テレワーク導入！の顛末記】
- 270 users
- internet.watch.impress.co.jp
- テクノロジー
- 2022/11/07
- AI
- あとで読む
- 文字起こし
- 無料
- テキスト
- python
- 人工知能
- OpenAI
- 技術
- GPU
OpenAI DevDay で発表された新モデルと新開発ツールまとめ｜npaka
- 269 users
- note.com/npaka
- テクノロジー
- 2023/11/07
以下の記事が面白かったので、かるくまとめました。・New models and developer products announced at DevDay 1. GPT-4 Turbo「GPT-4 Turbo」は、「GPT-4」より高性能です。2023年4月までの知識と128kのコンテキストウィンドウを持ちます。さらに、「GPT-4」と比較して入力は1/3、出力は1/2の安い価格で提供します。開発者はモデルID「gpt-4-1106-preview」で試すことができます。今後数週間以内に、安定した実稼働モデルをリリースする予定です。 1-1. Function Calling の更新「Function Calling」に、単一メッセージから複数のFunction (「車の窓を開けてエアコンをオフにする」など) を呼び出す機能などが追加されました。精度も向上しています。 1-2. 構造
- ChatGPT
- あとで読む
- AI
- OpenAI
- GPT
- 開発
- 人工知能
- API
- LLM
- まとめ
ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
- 218 users
- gihyo.jp
- テクノロジー
- 2023/04/06
ChatGPT APIの使い方実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは！"}] ) print(complet
- ChatGPT
- Whisper
- あとで読む
- AI
- API
- OpenAI
- Python
- アプリ
- プログラミング
- Hugging Face
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
- 207 users
- dev.classmethod.jp
- テクノロジー
- 2023/10/20
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみたはじめに今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。ストリーミングとバッチ処理のどちらでも文字起こしが可能です。攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び
- AI
- あとで読む
- aws
- API
- OpenAI
- 人工知能
- APIエコノミー
- Amazon Web Services
- techfeed
Introducing ChatGPT and Whisper APIs
- 189 users
- openai.com
- テクノロジー
- 2023/03/02
Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those
- ChatGPT
- AI
- あとで読む
- API
- OpenAI
- gpt
- deep learning
- 文章
- 学習
- deeplearning
2022年の深層学習ハイライト - Qiita
- 188 users
- qiita.com/shionhonda
- テクノロジー
- 2023/02/12
はじめに 2023年になって日が経ってしまいましたが、今年も深層学習の個人的ハイライトをまとめたいと思います。今回は研究論文5本と応用事例4つを紹介します。他におもしろいトピックがあれば、ぜひコメントなどで教えて下さい。 AIの研究動向に関心のある方には、ステート・オブ・AIガイドの素晴らしい年間レビューもおすすめします。また、私が過去に書いた記事（2021年、2020年、2019年）もよろしければご覧ください。 * 本記事は、私のブログにて英語で書いた記事を翻訳し、適宜加筆修正したものです。元記事の方も拡散いただけると励みになります。 ** 記事中の画像は、ことわりのない限り対象論文からの引用です。研究論文 Block-NeRF: Scalable Large Scene Neural View Synthesis 著者: Matthew Tancik, Vincent Casser,
WhisperとChatGPTで文字起こし | ドクセル
- 177 users
- www.docswell.com
- テクノロジー
- 2023/06/25
闇のエンジニア/変なデジカメ開発中/ディープラーニング芸人/Raspberry Piとからあげ大好き/はてなブログ書いてます
- ChatGPT
- あとで読む
- AI
- 音声
- API
- 学習
- 文章
- 文章生成AI
- 文字
- 勉強
OpenAI API で提供されているモデルまとめ｜npaka
- 173 users
- note.com/npaka
- テクノロジー
- 2023/03/04
1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデルを提供しています。・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。・DALL-E : 自然言語から画像を生成・編集するモデル・Whisper : 音声をテキストに変換するモデル・Embeddings : 埋め込み (ベクトル表現) を生成するモデル・Codex : コードを理解および生成するモデル・Moderation : センシティブおよび安全でない文章を検出するモデル・GPT-3 : 自然言語を理解および生成する旧モデル 2. GPT-3.5「GPT-3.5」は、自然言語とコードを理解および生成する最新モデルです。最も高性能で費用対効果の高いモデルは、チャット用に最適化されていますが、既存タスクにも適している「gpt-3.5-tu
- OpenAI
- あとで読む
- AI
- API
- ChatGPT
- 機械学習
writeout.ai
- 172 users
- writeout.ai
- テクノロジー
- 2023/03/09
Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.
- AI
- audio
- あとで読む
- transcription
- speech
- 音声
- webservice
- ツール
無料で始めるAmazon CodeWhisperer on VSCode（Github Copilotと同等の性能？） - Qiita
- 151 users
- qiita.com/masakinihirota
- テクノロジー
- 2023/04/16
無料で始めるAmazon CodeWhisperer on VSCode（Github Copilotと同等の性能？）AmazoncopilotCodeWhisperer 現在の AIを一言で説明すると・・・フミコ・フミオさんはTwitterを使っています: 「ほぼ全員がご高齢者の会社上層部からの「対話型AI とは何かその功罪について簡潔に分かりやすく出来たら一言で説明しろ」という難題にヤケクソで「ドラえもんです」と答えたら「便利だけど取扱注意ということだな」とほぼ正解な認識をしてくれたので藤子・F・不二雄先生は偉大すぎる。」 / Twitter Github Copilot と Amazon CodeWhisperer の比較現時点では Github Copilot の方が使いやすい。単純な機能だと同じくらいだが、 Github Copilot は、コマンドパレットがあるので、その
- VSCode
- あとで読む
- AI
- Amazon
- aws
- github
- copilot
- ChatGPT
- プログラミング
- 人工知能
OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
- 124 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/23
こんちには。データアナリティクス事業本部機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…？と思っていたのですが… ですが… … … … おお！？(上記はGitHubにあるWER: Word Error Rateのグラフです) これは！？これは結構良さげな数値を出している！？(たぶん) ってことで元音声屋さんとしては、これは試すしかない！ということで動かしてみました！(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試
- 音声認識
- AI
- whisper
- あとで読む
- 機械学習
- OpenAI
- python
- 音声
- api
OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
- 120 users
- inoccu.com
- テクノロジー
- 2022/09/26
OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は
- python
- whisper
- あとで読む
- mac
- AI
- インストール
- github
無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
- 104 users
- gigazine.net
- テクノロジー
- 2022/09/29
画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ
- AI
- 音声
- whisper
- 機械学習
- 文字
- 文章
- 人工知能
- あとで読む