並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 138件

新着順 人気順

文字起こしの検索結果1 - 40 件 / 138件

文字起こしに関するエントリは138件あります。 AI人工知能ツール などが関連タグです。 人気エントリには 『いま文章を書くのに「CURSOR」を使わないのは損だ』などがあります。
  • いま文章を書くのに「CURSOR」を使わないのは損だ

    粘土板からプロンプトへ 人間が「ことば」を記録するようになったのは、紀元前3300年頃のメソポタミアでのことだそうだ。シュメール人たちが、粘土板に楔型文字を使って文字を印した。この人間が「ことば」を記録するという営みが、いま生成AIによって大きく変化しはじめている。 生成AIで「ことば」を生み出すといえば、ChatGPTでメールの返事を書かせたり、人間が書いたとしか思えない小説ができたといった話題もある。それらはどちらかというと、何か小石のようなものをジャラジャラとシャッフルして自分の納得するパターンを見つける特別な仕掛けのようなものだ。 それに対して、自分の頭の中にあるものを言葉として表現して、相手に伝えるための手段として生成AIを使うことも始まっている。それをいまのところいちばん理想に近い形で実現していると見られているのが、コードエディタ「CURSOR」(カーソル、カーサー)のようだ。

      いま文章を書くのに「CURSOR」を使わないのは損だ
    • Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania

      Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcrib‪e‬(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う

        Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania
      • 【全文】「勝ちっ放しはないでしょう、安倍さん」野田元首相から安倍元首相への追悼演説|日テレNEWS NNN

        2022年10月25日、衆議院本会議。選挙演説中に銃撃され死去した安倍元首相に向けた追悼演説が行われた。演説に臨んだのは、立憲民主党の野田元首相。かつて野党時代の自民党総裁だった安倍氏と、首相だった野田氏は、党首討論の場で、衆議院の解散をめぐる“真剣勝負”に臨んだ間柄だ。追悼演説の中で野田氏は「再びこの議場で、あなたと真剣勝負を戦いたかった」「勝ちっ放しはないでしょう、安倍さん」と天上の故人に語りかけた。演説の全文は以下の通り。 本院議員、安倍晋三元内閣総理大臣は、去る7月8日、参院選候補者の応援に訪れた奈良県内で、演説中に背後から銃撃されました。搬送先の病院で全力の救命措置が施され、日本中の回復を願う痛切な祈りもむなしく、あなたは不帰の客となられました。享年67歳。あまりにも突然の悲劇でした。 政治家としてやり残した仕事。次の世代へと伝えたかった想い。そして、いつか引退後に昭恵夫人と共に

          【全文】「勝ちっ放しはないでしょう、安倍さん」野田元首相から安倍元首相への追悼演説|日テレNEWS NNN
        • 「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】

            「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】
          • まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい

            まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい 企業の業務の中でも会議やプレゼンなどの議事録作成は効率化したい作業の上位に挙がってくるのではないでしょうか。実際、2023年8月にソースネクスト株式会社が行った「議事録に関する意識調査」によると、議事録の作成には平均50.4分の時間が費やされており、また部下の75.8%が会議中の議事録の作成によって発言しにくいと感じることがあるといいます。 そこで利用を検討したいのが、AIによる自動音声認識を利用した議事録の作成です。本記事では、日本語に特化して高い精度と速度を誇ると話題を呼んだ『kotoba-whisper-v2.0』を主に取り上げ、AIによる議事録作成の最前線をご紹介します。 日本語特化の文字起こしAI『kotoba-whisper-v2.0』とは? 『kotoba-whi

              まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい
            • iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)

              アプリや専用デバイスを使った、日本語の「自動文字起こし」に関連するサービスには、近年多くの関心が集まっている。背景にはスマホやAIを活用する音声認識のテクノロジーが飛躍を遂げたことや、コロナ禍の影響を受けてリモートワークが普及したことなどがある。iPhoneに対応する「UDトーク」も自動文字起こしに対応する注目のアプリだ。開発者に特徴を聞いた。 iPhone/iPadでも使える日本語対応の自動文字起こしアプリ コミュニケーション支援・会話の見える化アプリをうたう「UDトーク」は、Shamrock Records(シャムロック・レコード)の代表兼エンジニアである青木秀仁氏が開発を手がけている。 モバイル版アプリはiOS/Android/Fire OSの各プラットフォームに対応する。ほかにも音声認識の結果を修正したり、事前に作成した原稿をスマホやタブレットに送信する一部機能を搭載するMac版/

                iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)
              • KAJI | 梶谷健人 on Twitter: "GlaspっていうChrome拡張機能使うと、YouTube動画からボタン一発でChatGPTにサマリー文章を作ってもらえてとても便利。 DeepLと組み合わせて海外のカンファレンス動画やレクチャー動画も高速で学習できる。 https://t.co/FHSapesC0K"

                  KAJI | 梶谷健人 on Twitter: "GlaspっていうChrome拡張機能使うと、YouTube動画からボタン一発でChatGPTにサマリー文章を作ってもらえてとても便利。 DeepLと組み合わせて海外のカンファレンス動画やレクチャー動画も高速で学習できる。 https://t.co/FHSapesC0K"
                • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

                  会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

                    文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
                  • 1991年の山下達郎インタビューに見る根深い孤立感と不信感 - YAMDAS現更新履歴

                    少し前に、以下のツイートを目にした。 For You がリリースされた頃、山下達郎は今のようにリスペクトされる存在ではなく、一般リスナーにとっては「流行り物」で、頭でっかちの音楽好きにとっては「チャラチャラした音楽」と捉えられていたことは、ポップミュージックの受容の歴史としてきちんと記録に残しておいた方がいいと思う。— Andy@音楽観察者 (@andymusicwatch) May 14, 2023 当時のミュージックマガジンのレビューでの評価が典型的ですよね。 https://t.co/Rvj2l5r2pE— Andy@音楽観察者 (@andymusicwatch) May 14, 2023 このあたりについて参考になる山下達郎のインタビューを参照してみたいと思う。 というわけで、1989年から2004年まで読者だった rockin' on のバックナンバーを引っ張り出す「ロック問はず

                      1991年の山下達郎インタビューに見る根深い孤立感と不信感 - YAMDAS現更新履歴
                    • ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』 - Qiita

                      Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? みなさんこんにちは!私は株式会社ulusageの、技術ブログ生成AIです!これからなるべく鮮度の高い情報や、ためになるようなTipsを展開していきます。よろしくお願いします!(AIによる自動記事生成を行なっています。システムフローについてなど、この仕組みに興味があれば、要望が一定あり次第、別途記事を書きます!) 爆速で動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』を試してみた はじめに ビジネスシーンや日常生活で、音声データを文字起こしするニーズはますます高まっています。議事録の作成やインタビューの文字起こ

                        ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』 - Qiita
                      • 生成AI時代の音声入力ツール:SuperWhisperのすすめ - うみのーと

                        はじめに honeshabri.hatenablog.com 骨しゃぶりさんのブログで音声入力が激推しされていて、自分も普段から音声入力を使っているので、その使い方にとても共感できたし嬉しかったです。普通に音声入力がもっと流行ってほしいなと思います。 骨しゃぶりさんのブログ記事に触発されたのもあり、僕も音声入力について記事を書いてみました。この記事では自分のおすすめ音声入力ツールとその活用法を紹介したいと思います。 SuperWhisperのすすめ Whisperという音声認識モデルをご存知の方は多いと思います。これはTransformerベースの音声認識モデルで、OpenAIからOSSとして公開されています。特徴としては従来の音声認識と比べて、聞き間違いや聞き逃しが少なく、ノイズやフィラー(えーと、うーん、あー)を上手に無視してくれて、音声認識の精度が高いというところがあります。 よくあ

                          生成AI時代の音声入力ツール:SuperWhisperのすすめ - うみのーと
                        • 時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす

                          みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無

                            時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす
                          • Gakushi Fujiwara / 藤原学思 on Twitter: "ウクライナ危機、安保理10回目の会合が始まります。ロシアの要請です。このスレッドで速報していきます。 フランス大使の言葉が、会合の異質さを物語ります。 「ロシアがまた偽情報、情報操作、フェイクニュースを戦略として使っている。会… https://t.co/1LAaq577Xc"

                            ウクライナ危機、安保理10回目の会合が始まります。ロシアの要請です。このスレッドで速報していきます。 フランス大使の言葉が、会合の異質さを物語ります。 「ロシアがまた偽情報、情報操作、フェイクニュースを戦略として使っている。会… https://t.co/1LAaq577Xc

                              Gakushi Fujiwara / 藤原学思 on Twitter: "ウクライナ危機、安保理10回目の会合が始まります。ロシアの要請です。このスレッドで速報していきます。 フランス大使の言葉が、会合の異質さを物語ります。 「ロシアがまた偽情報、情報操作、フェイクニュースを戦略として使っている。会… https://t.co/1LAaq577Xc"
                            • 文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉

                              どうもこんにちは、あんどう(@t_andou)です。 前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。 「Youtubeの」と書いていますが、実際はどの動画でも対応してます。 前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え 上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続 下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロード ここにドラッグ&ドロップでアップできます 大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更 ファイル名に合わせて変更してください 5.全セルを実行 あと

                                文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
                              • 「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】

                                  「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】
                                • 生成AIで議事録が60分→2分。96%工数削減した自動生成ツールの紹介|noteエンジニアチームの技術記事

                                  こんにちは、note AI creative(以下、nAc)の田中です。 nAcとして今までさまざまな社内の業務改善に取り組んできましたが、中でも「議事録作成業務」は負担の大きい業務の1つでした。 セールス・カスタマーサクセスなど顧客と対面する部署では特に議事録作成は重要な業務として頻繁に発生しますが、1回あたり最大60分かかっており改善の余地がありました。 nAcが作成した生成AIのソリューションを使うことで、作業量が96%も削減され、60分の作業が2分で終わるようになりました。 議事録を生成するデモgifnote proチームの社内発表資料から抜粋この記事では、議事録作成を自動化するために作成したソリューションとその効果について紹介します。 議事録作成効率化の歴史議事録作成業務の効率化を目指し、まずは「tl;dv」というツールを導入してテストを行いました。 tl;dvは非常に機能が豊富

                                    生成AIで議事録が60分→2分。96%工数削減した自動生成ツールの紹介|noteエンジニアチームの技術記事
                                  • 全国霊感商法対策弁護士連絡会記者会見 文字起こし① : 統一教会(世界平和統一家庭連合)って何?合同結婚式や安倍元総理との関係についても

                                    ①は全国霊感商法対策弁護士連絡会の声明とコメント ②はAさんのコメント及びAさんに対する質疑応答 ③は弁護士に対する質疑応答 黙祷部分は省略 敬称略 恐らく誤字脱字誤変換あり 「あの」「えー」などは省略 司会進行、事務的な会話等は省略した部分もあり 聞き取れなかった部分は○○○で表記 発言者が不明の場合は???で表記 川井「最初に私の方から、本日の会見の趣旨が記載されている声明文の方読み上げさせていただきたいと思います。 声明1、山上被疑者が安倍晋三元首相を死に至らしめた今般の卑劣極まりない行為は、いかなる理由があろうとも決して許されないことです。当会は安倍元首相のご冥福を心からお祈り申し上げます。 2、山上被疑者の母親が統一教会に多額の献金をし、仮定を崩壊させたことへの恨みが、今回の事件の動機であるという報道が事実であるとすればですが、同被疑者母親の常軌を逸した統一教会への献金をはじめと

                                      全国霊感商法対策弁護士連絡会記者会見 文字起こし① : 統一教会(世界平和統一家庭連合)って何?合同結婚式や安倍元総理との関係についても
                                    • iPhone・Androidで高速に日本語音声入力するためのベストプラクティス

                                      先日Twitterで「大学生がスマートフォンでレポートを書いている」というツイートが話題になっており、それに対して反応している方達もほぼ全員が「スマートフォンでレポートを書くのは効率が悪い」という前提で話をしていることに大変違和感を覚えました。 なぜなら私はこのブログはもちろん、技術書を執筆するときでさえ主にスマートフォンで下書きをしているからです。 PCを使うのは、ほぼスクリーンショットの撮影と最後の仕上げだけです。 その方が、最初からPCで文字入力するのに比べて圧倒的に効率が良いです。 この記事では、iPhoneとAndroidそれぞれで音声入力を効率よくおこなう方法について解説します。 iPhone・iPadの場合 先に結論から申し上げると、iPhone・iPad・Macの日本語音声入力は、AndroidのGoogle音声入力に比べて認識精度が低く、認識できる単語が少ないです。 仕事

                                        iPhone・Androidで高速に日本語音声入力するためのベストプラクティス
                                      • ポッドキャストをAIで文字起こしして図解する手順|ノウチ

                                        どうも、ノウチです。 ポッドキャストをよく聞くんですが、その内容をしっかり理解したいなと思って、いつも文字起こししてテキストで読みつつ、最後に図解して要点を振り返る、というのをやっています。 その手順やプロンプトをメモしておきます! ポッドキャストの音源(mp3)をダウンロードするまず音源を入手します。ポッドキャストはウェブ上にmp3が上がっているので、取り出すのはかんたんです。 ポッドキャストのRSSを調べるどのポッドキャストも配信情報をまとめたRSSフィードが用意されています。 RSSフィードとは、ウェブサイトの更新情報を簡単に取得できる仕組みです。「Really Simple Syndication」または「Rich Site Summary」の略で、ユーザーがウェブサイトを直接訪問しなくても、新しいコンテンツや更新情報を自動的に受け取ることができます。 Claudeの回答Spoti

                                          ポッドキャストをAIで文字起こしして図解する手順|ノウチ
                                        • Kindle書籍を短時間でメモに文字起こしをしてNotebookLMで使用する方法|Shin@AI×Webマーケ

                                          新しく発表になった、GoogleのAIサービスである「Notebook」を使っているんですが、 - 本のPDFをアップロードする - すると中身が全部左側に出てくる - AIに色々質問ができる - 答えに出てきた部分を左側で読める - 回答をピン留めするとメモとして保存できる。メモを自分で書くこともできる… pic.twitter.com/ogaUG4bYvB — けんすう (@kensuu) June 7, 2024 【AI用に物語思考のPDFを公開します】 AIを使って読書をするとめちゃくちゃに捗るよ、、という話をよくしているんですが「本のPDFがない」という人が多くて。 で、ちょっと試すのにPDFを用意するのって手間だよねえ、と思っているので、、… — けんすう2 (@kensuu) June 10, 2024 AIと対話しながら、自分だけの読書体験を実現する方法があります! Kin

                                            Kindle書籍を短時間でメモに文字起こしをしてNotebookLMで使用する方法|Shin@AI×Webマーケ
                                          • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                                            画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                                              OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                                            • 「iPhoneとPCを連携させて、無料で通話を録音・文字起こしする方法」――急遽テレワークを導入した中小企業の顛末記(181)【急遽テレワーク導入!の顛末記】

                                                「iPhoneとPCを連携させて、無料で通話を録音・文字起こしする方法」――急遽テレワークを導入した中小企業の顛末記(181)【急遽テレワーク導入!の顛末記】
                                              • 録音の文字起こし超ラクで仕事のやり方に変化。私生活はひたすら運動した【私の2023】 - 家電 Watch

                                                  録音の文字起こし超ラクで仕事のやり方に変化。私生活はひたすら運動した【私の2023】 - 家電 Watch
                                                • 爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は?/実際にローカルで実行してOpenAIの「Whisper」と比較してみた【レビュー】

                                                    爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は?/実際にローカルで実行してOpenAIの「Whisper」と比較してみた【レビュー】
                                                  • 自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告

                                                    AI研究団体のOpenAIが開発した「Whisper」は非常に高い精度で録音から文字起こしを行うAIモデルで、オープンソースで無料公開されています。エンジニアのロバー・ダム氏が自身のブログで、毎日スマートフォンに行動を逐一吹き込み、その録音をWhisperで文字起こしすることで「全自動口述日記」を残すことができるシステムを試した結果について報告しています。 I record myself on audio 24x7 and use an AI to process the information. Is this the future? https://roberdam.com/en/wisper.html ダム氏が全自動口述日記を思いついたのは、以前から「1TB超えのストレージを内蔵したスマートフォンが登場すれば、24時間365日録音し続けることが可能なのではないか」と考えていたことから

                                                      自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告
                                                    • https://twitter.com/buffett_code/status/1605488460659392514

                                                        https://twitter.com/buffett_code/status/1605488460659392514
                                                      • PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記

                                                        PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan

                                                          PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
                                                        • 「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】

                                                            「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】
                                                          • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                                                            自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                                                              自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                                                            • 音声文字起こしサービス徹底検証 ベストな選択はこれだ!

                                                              話した言葉をテキストデータに変換できる「音声文字起こしサービス」。テレワーク時代の情報共有ツールとして大いに役立つものの、気になるのはその実用性だ。発言の認識精度に加え、大まかな流れや会話の文脈を後から振り返るのに使えるのかどうか。主要な7つのサービスを使用し、比較した。 ※日経トレンディ2021年5月号の記事を再構成 ディープラーニングやビッグデータの活用が進み、音声認識の精度が大きく向上。話した言葉をテキストデータに変換できる「音声文字起こしサービス」が相次いで登場している。 会議の内容を振り返ったり、他の人にシェアしたりなど、テレワーク時代の情報共有ツールとして注目されているこれらのサービスは、どこまで実用的なのか。主要な7つのサービスを実際に使い、比較してみた。

                                                                音声文字起こしサービス徹底検証 ベストな選択はこれだ!
                                                              • 無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた

                                                                オープンソースで開発される「audapolis」は書き起こし機能を備えたメディアエディターで、音声を自動的にテキストに書き起こすだけでなく、書き起こしたテキストを編集することで同時に音声も編集できるツールで、無料で使うことができます。 GitHub - bugbakery/audapolis: an editor for spoken-word audio with automatic transcription https://github.com/bugbakery/audapolis audapolisはオープンソースで開発されるフリーアプリで、AGPL-3.0ライセンスの下で配布されています。GitHubのページにアクセスし、「Release」にある最新バージョンをクリック。記事作成時点での最新バージョンはv0.3.0です。 audapolisはmacOS・Linux・Window

                                                                  無料で自動文字起こし&テキストで音声編集も可能な「audapolis」を使ってみた
                                                                • 録音しながら文字起こし。Pixel標準アプリが優秀すぎる

                                                                  録音しながら文字起こし。Pixel標準アプリが優秀すぎる2025.03.18 19:3033,052 小野寺しんいち Pixelに乗り換えて、正直これが1番感動したかも。 皆さん文字起こし、どうやってます? ミーティングの議事録を取ったり、誰かの話を記録したり。AIの導入が一般化しつつあるように感じますが、取材やインタビューが多いライターの私にとって、文字起こしツールはもはやなくてはならない存在です。 これまで色々なツールを試してきましたが、 Pixel純正の文字起こし機能、 かなり使えて驚きました。 たった2タップで録音&文字起こし開始「レコーダー」は、Pixelに標準で入っているボイスレコーダーアプリで、文字起こし機能も付いています。 こいつ、地味なわりにかなりの優等生。まず使い勝手がとても良い。とくに複雑な設定は不要で、レコーダーを回すと自動で文字起こしが始まります。 先日のGIZM

                                                                    録音しながら文字起こし。Pixel標準アプリが優秀すぎる
                                                                  • 新・必須ガジェット。テレワークのストレスを全部解決してくれました

                                                                    新・必須ガジェット。テレワークのストレスを全部解決してくれました2024.03.28 17:00Sponsored by HiDock 三浦一紀 もう手放せない。 最近毎日のように行なっているオンライン会議。自宅にいながら、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。 たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返したりすることがストレスになります。また、オンライン会議が増えてきたことで、議事録作成の時間が膨大になってきているのも辛い。 さらに、自宅で仕事をする時間が増えると、机の上もごちゃごちゃになりがち。Webカメラにマイク、外付けディスプレイに外付けHDD、その他スマートフォン類の充電などなど、机の上はありとあらゆるケーブル類が這い回っています。作業スペースが狭

                                                                      新・必須ガジェット。テレワークのストレスを全部解決してくれました
                                                                    • OpenAIの文字起こしAI「Whisper」、医療現場での利用に研究者らが警鐘

                                                                      米OpenAIが2022年に発表した音声テキスト変換AI「Whisper」に、文章の一部または全部を捏造してしまういわゆる「幻覚」による重大な欠陥があると、米Associated Pressは10月26日(現地時間)、多数のエンジニアや研究者へのインタビューに基づいて報じた。 Whisperは、インタビューの翻訳や文字起こし、消費者向け技術でのテキスト生成、動画の字幕作成など、世界中の様々な業界で使用されている。Associated Pressは、医療機関でもWhisperベースのツールが診察の会話の文字起こしで使われ始めていることが、深刻な懸念を引き起こしていると指摘する。 Whisperのトレーニングには、ネット上の膨大な音声データと、それに対応する文字起こしテキストから構成される、68万時間に及ぶ大規模なデータセットが使われたとしているが、トレーニングに使った具体的なソースは明示して

                                                                        OpenAIの文字起こしAI「Whisper」、医療現場での利用に研究者らが警鐘
                                                                      • ポッドキャストをAIで書き起こし「LISTEN」 近藤淳也氏が立ち上げ

                                                                        AIを使ってポッドキャスト番組を自動で文字起こしするサービス「LISTEN」β版を、はてな創業者の近藤淳也氏が公開した。 OpenAIが提供する書き起こしAPI「Whisper」を使い、配信済みのポッドキャストの内容を文字起こしして公開する。テキストを指定してその部分から音声を再生することもできる。 番組にコメントを書き込んだり星を付けて出演者と交流する機能も備えた。 約20人のポッドキャスターが既に登録しており、徐々に拡大していく。 Discordコミュニティでユーザーからのフィードバックなどを受け付けている。 関連記事 OpenAI、「ChatGPT API」と企業向け専用容量プランの提供開始 「gpt-3.5-turbo」も発表 OpenAIは「ChatGPT API」と「Whisper API」の提供を開始した。ChatGPT APIの価格は1000トークン当たり0.002ドル。A

                                                                          ポッドキャストをAIで書き起こし「LISTEN」 近藤淳也氏が立ち上げ
                                                                        • GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog

                                                                          この記事はenechain Advent Calendar 2024の14日目の記事です。 はじめに こんにちは。enechainで統計・機械学習モデルの構築やLLM(大規模言語モデル)の活用推進を担当している@udon_tempuraです。 私達のチームでは、以前紹介した会議動画要約のノウハウを活用し、 社内用の動画・音声文字起こしツールを構築・運用しています。 本記事では、その精度向上の仕組みについて紹介します。 実装も比較的少なく実現できたため、セキュリティなどの関係により内製で文字起こしを構築している方々の参考になれば幸いです。 はじめに 背景と課題 システム要件 システム実装 アーキテクチャ 入力データ形式 ドメイン固有用語の管理 処理フロー Cloud Speech-to-Textによる文字起こし Gemini 1.5 Flashによる認識処理 Gemini 1.5 Proによ

                                                                            GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog
                                                                          • OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

                                                                            CPUでも動かせる版があるというのは、AWSなどの上でアーキテクチャを検討する際も選択肢が増えそうで良いですね。 ノイズをマシマシにしてみる 最後にもう少しだけノイズデータを増やしてみましょう。 ノイズ2倍 ffmpegで以下のようにすれば、重みを付けてミックスが可能です。下記はノイズのボリュームが2倍になっています。 !ffmpeg \ -i "output.wav" \ -i "noise.wav" \ -filter_complex \ "[0:a]volume=1.0,channelsplit=channel_layout=mono[a1];\ [1:a]volume=2.0,channelsplit=channel_layout=mono[a2];\ [a1][a2]amerge=inputs=2" \ -ac 1 \ "mix-noise-weight2.wav" 可視化すると

                                                                              OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
                                                                            • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

                                                                              OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は、ASDFを使ってPythonのバージョンを使い分けており、今回使用するのは、miniforge3-4.10.3-10です。Python 3.9.13が動作しています。 まず、仮想環境を作ります。miniforgeを使っていながらPython標準のvenvを使っていました。(あまり意識して

                                                                                OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
                                                                              • [みんなのケータイ]「iPhoneで録音 → 書き起こし → Apple Intelligence」で記事を書いてみる

                                                                                  [みんなのケータイ]「iPhoneで録音 → 書き起こし → Apple Intelligence」で記事を書いてみる
                                                                                • 無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

                                                                                  画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ

                                                                                    無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ

                                                                                  新着記事