並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 50件

新着順 人気順

"Speech to Text"の検索結果1 - 40 件 / 50件

"Speech to Text"に関するエントリは50件あります。 AI人工知能OpenAI などが関連タグです。 人気エントリには 『文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK』などがあります。
  • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

    会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

      文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
    • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

      株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

        超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
      • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

        画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

          OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
        • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

          東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

            超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
          • 自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告

            AI研究団体のOpenAIが開発した「Whisper」は非常に高い精度で録音から文字起こしを行うAIモデルで、オープンソースで無料公開されています。エンジニアのロバー・ダム氏が自身のブログで、毎日スマートフォンに行動を逐一吹き込み、その録音をWhisperで文字起こしすることで「全自動口述日記」を残すことができるシステムを試した結果について報告しています。 I record myself on audio 24x7 and use an AI to process the information. Is this the future? https://roberdam.com/en/wisper.html ダム氏が全自動口述日記を思いついたのは、以前から「1TB超えのストレージを内蔵したスマートフォンが登場すれば、24時間365日録音し続けることが可能なのではないか」と考えていたことから

              自分の行動を毎日24時間録音してWhisperで文字起こしする「全自動口述日記」を1週間つけつづけたエンジニアの報告
            • 「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】

                「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】
              • ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp

                ChatGPT APIの使い方 実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール 今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは!"}] ) print(complet

                  ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
                • 新しいBing、アプリになる 音声対応+チャットで応答

                    新しいBing、アプリになる 音声対応+チャットで応答
                  • iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能

                    Web版と同様にログインして使う。有料版「ChatGPT Plus」ユーザーであれば、Web版と同様にGPT-4へのアクセスや新機能の早期利用などが可能だ。 また、昨年9月に発表したオープンソースの音声テキスト変換AI「Whisper」により、音声でのプロンプト入力も可能だ。 米Microsoftは2月に「新しいBing」のモバイルアプリ版をiOSおよびAndroid向けにリリースした。こちらは既に日本でも利用可能で、日本語での音声入力もできる。 現在App Storeで「ChatGPT」を検索すると、OpenAIのロゴに似たロゴを冠した類似アプリが多数表示される。OpenAI ChatGPTは日本ではまだ公開されていないので、注意が必要だ。 関連記事 ChatGPT Plusのプラグインを使ってみた 「食べログ」連携で実在店舗も案内可能に OpenAIは「ChatGPT Plus」のサー

                      iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能
                    • マウスコンピューターで売っているwindowsタブレットが予想の3倍ぐらい使い勝手がよくてびっくり - 勝間和代が徹底的にマニアックな話をアップするブログ

                      私の友人の間で、マウスコンピューターで売っているほぼアウトレット価格のWindowsタブレット13,000円がとても実用的で、単用途は使い勝手が良いと話題になりました。 そこでわたしも原稿書きのために一台買おうかなと思ってマウスのサイトまで見に行きました。そうしたら、13,000円のものですとCPUがN4000なので、さすがにきついかと思ったら、隣りに18,000円のものがN4100のcpuが載っていたので、これだとギリギリまあ使えるかなと思ってポチりました。 10.1型タブレット|マウスコンピューター【公式】 そしてやってきたので、セットアップを始めたところ、嬉しい誤算だったのが、家にやって来た日から既にwindows11にも更新できるようになっていて、すぐにwindows10からwindows11にしました。 そうすると何がうれしいかというと ものすごく操作が慣れているWindowsの

                        マウスコンピューターで売っているwindowsタブレットが予想の3倍ぐらい使い勝手がよくてびっくり - 勝間和代が徹底的にマニアックな話をアップするブログ
                      • OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog

                        地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 【IIJ 2022 TECHアドベントカレンダー 12/8(木)の記事です】 Whisperの追加学習に挑む2022年の冬 2022年アドベントカレンダー企画だそうです。 いかがお過ごしでしょうか。 私はもう興味を引くものに没頭するしか楽しみがないもんで、PCに向かってぼんやり面白いネタはないかなーと探す日々です。 最近はすっかりディープラーニングにズブズブで、とうとう数式かくのが面倒なあまり手書き入力のためのペンタブレットを買いました。てへ。 今回は9月から10月にかけてStabl

                          OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog
                        • 爆速文字起こしでライター大満足「LINE CLOVA Note」が凄い!話し手の区別も

                          やなぎや・とものり/1972年12月生まれ。1998年からITライターとして活動しており、ガジェットからエンタープライズ向けのプロダクトまで幅広い領域で執筆する。2018年から、NPO法人デジタルリテラシー向上機構(DLIS)を設立し、ネット詐欺の被害をなくすために活動している。 https://prof.yanagiya.biz/ https://peraichi.com/landing_pages/view/dlis/ 仕事を256倍速くするツールを探せ! ITの世界は日進月歩。一昔前ならとても無理だったことや、人間がやらなくてはならなかったことをどんどんコンピュータに任せられるようになっています。連載「仕事を256倍速くするツールを探せ!」では、最近出てきたサービスの中から、特にビジネスや勉強に役立つサービスやソフトウエア、ハードウエアをピックアップ。ライターが実際に使用し、使い方や

                            爆速文字起こしでライター大満足「LINE CLOVA Note」が凄い!話し手の区別も
                          • スマホが高性能ICレコーダーに!使ってわかったLINEの無料AI音声認識アプリ「CLOVA Noteβ」の実力|@DIME アットダイム

                            ビジネスパーソンに必須といえる〝会議〟。 会議には議事録がつきものですが、できることなら機械に任せたいもの。しかし、音声認識をして文字起こしするソフトやサービスは昔からありましたが、高額かつ低認識率のものも多かったです。 そんな中、奇跡のスマホアプリが出現しました。まだベータ版(試用版)ですがいずれ正式版がリリースされるはずです。 それでは、LINEの無料AI音声認識アプリ「CLOVA Noteβ」についてご紹介します。 楽するだけではない! 議事録を書かなくて済むメリットとは? 「CLOVA Noteβ」は、録音しながらまずは話の概要をざっくり聞き、録音・文字認識が完了した二周目に「CLOVA Noteβ」で音声を「耳」で聞きます。そして自動文字起こしされた「文字情報」を目で確認できるのです。つまり、会議の内容を熟考できて知識が深まるのが最大のメリットです。 「CLOVA Noteβ」を

                              スマホが高性能ICレコーダーに!使ってわかったLINEの無料AI音声認識アプリ「CLOVA Noteβ」の実力|@DIME アットダイム
                            • ジェネレーティブAIで「文字起こし」をリライトさせるとどうなるのか。Easy-Peasy.AIを日本語で使ってみた(西田宗千佳) | テクノエッジ TechnoEdge

                              1971年福井県生まれ。得意ジャンルは、パソコン・デジタルAV・家電、ネットワーク関連など「電気かデータが流れるもの全般」。主に、取材記事と個人向け解説記事を担当。 音声の書き起こしはライターにとって夢の技術だ。そのまま原稿にできるわけではないが、インタビュー原稿や取材記事を執筆する上での手間が劇的に減る。筆者はもうずっと昔から、書き起こし系の技術が出るたびに試行錯誤を繰り返してきた。 そんな中に、ちょっとびっくりするようなサービスが現れた。正確にいえば「使ってみたらびっくりするようなものだった」というのが正しいだろうか。 それはいわゆるジェネレーティブAIサービスである「Easy-Peasy.AI」だ。このうち、AIによる音声書き起こしサービス「AI Transcription」を日本語で使ってみた。 結果として、「非常に使えるが、面白い性質がある」こともわかってきた。現在のジェネレーテ

                                ジェネレーティブAIで「文字起こし」をリライトさせるとどうなるのか。Easy-Peasy.AIを日本語で使ってみた(西田宗千佳) | テクノエッジ TechnoEdge
                              • ChatGPTがスマホアプリに まず米国でiPhone向け - 日本経済新聞

                                【シリコンバレー=渡辺直樹】米新興企業のオープンAIは18日、対話型AI(人工知能)「Chat(チャット)GPT」のスマートフォンアプリの配信を始めたと発表した。音声入力にも対応した。米アップルのiPhone向けに提供し、近く米グーグルの基本ソフト(OS)アンドロイドのスマホにも対応する。米国向けを手始めに今後数週間で対応地域を広げる。アプリは無料で利用でき、複数の端末間で履歴を同期できる。オ

                                  ChatGPTがスマホアプリに まず米国でiPhone向け - 日本経済新聞
                                • 「Googleドキュメント」の音声入力機能がアップデート--使い方を解説

                                  声は強力なツールだ。Googleの音声入力機能は、声による文字入力を支援するだけでなく、プレゼンにも活用できる。 Googleの音声入力機能を使えば、自分の声を使って、頭の中の考えを素早く簡単にデジタル化できる。 Googleは米国時間1月9日、音声入力でより正確かつ安定した文字起こしを実現するアップデートを段階的にリリースすると発表した。 主な変更点は次のとおりだ。 音声を文字起こしする際の変換ミスを削減 文字起こしの漏れを最小化 対象が大半の主要ブラウザーに拡大 「Googleスライド」のキャプションに句読点を自動挿入 強化された音声入力機能を実際に使えようになるのは大半のユーザーの場合、2月9日以降だ。その間に、Googleの音声入力機能を使って「Googleドキュメント」で入力・編集をしたり、Googleスライドのスピーカーノートに音声でテキストを入力したりする方法を紹介しよう。

                                    「Googleドキュメント」の音声入力機能がアップデート--使い方を解説
                                  • 無料で自動文字起こしが可能な「CLOVA Note」を試して分かったこと

                                    無料で自動文字起こしが可能な「CLOVA Note」を試して分かったこと:PCでもスマホでも使える!(1/2 ページ) 会議などの議事録を作成したり、プレゼンテーションの内容を後から確認したりするため、音声を録音したいこともあるだろう。そのような場合、数年前まではICレコーダーを利用するのが一般的だったように思うが、最近ではスマートフォン単体で録音できるアプリも増えてきた。 また、そうして録音した内容を文字起こしするのは、以前は人力で行うのが当たり前だったが、今では自動で文字起こしまで行ってくれるものも出てきている。そのような自動で文字起こしを行ってくれるLINEのアプリ「CLOVA Note」を実際に利用したので、どの程度使えるものなのか簡単に紹介しよう。 β版として無料提供 アプリでもファイルのアップロードでも利用可能 CLOVA Noteは、LINEがこの5月からβ版として無料で提供

                                      無料で自動文字起こしが可能な「CLOVA Note」を試して分かったこと
                                    • 無料で音声をテキストに書き起こしてWebページへ入力できる拡張機能「Voice In」/「Gmail」や「Google ドキュメント」へのテキスト入力を音声で【レビュー】

                                        無料で音声をテキストに書き起こしてWebページへ入力できる拡張機能「Voice In」/「Gmail」や「Google ドキュメント」へのテキスト入力を音声で【レビュー】
                                      • 音声認識が急激に進化、実用レベルになったフリーの文字起こしソフト

                                        会議録を作る際、録音を繰り返し聞いて文字起こしするのは大変だ。最近は音声認識の技術が急速に進化し、無料でテキスト化できるアプリもある。使わないのは損だ。 「LINE CLOVA Note」は認識精度が高く、複数の話者を区別できるので実用性が高い(図1)。利用にはLINEアカウントが必要(図2、図3)。スマホアプリ版はその場で録音するか、音声ファイルをアップロードして使える(図4)。録音する場合でも即座にテキスト化されるわけではなく、録音終了後に文字認識が始まる。パソコンではウェブサービス版を利用できる(図5)。よく使う単語を登録しておくと、認識精度がより高まる(図6)。

                                          音声認識が急激に進化、実用レベルになったフリーの文字起こしソフト
                                        • 「文字を打つのが面倒」進化するLINEの新常識 ミュート・スクショ・文字認識…若者が使う便利機能を紹介|FNNプライムオンライン

                                          寝ている相手を起こさないように…搭載されたばかりの新機能 2022年7月、LINEに新たな機能が追加された。その名も「ミュートメッセージ機能」。 夜遅くにLINEを送ると「相手を起こしてしまうのでは?」と気を使ってしまうが、そんな時、この機能がとっても便利! この記事の画像(25枚) 使い方は、LINEの右上にある設定アイコンをタップして「LINE Labs」を選択。 その中にある、「ミュートメッセージ」の設定をONにすれば、準備OK。 後は送信ボタンを長押しして、ミュートメッセージを選んで送れば、相手の通知音は鳴らさずに、メッセージを送ることができる。 若者世代のLINEの使い方は、今もっと進化している! そこで「LINEの便利機能と新常識」をココ調する! 「トークスクショ」「文字認識」あなたは使っている?LINEの便利機能 街で、よく使うLINEの機能を聞いてみると… 街頭インタビュー

                                            「文字を打つのが面倒」進化するLINEの新常識 ミュート・スクショ・文字認識…若者が使う便利機能を紹介|FNNプライムオンライン
                                          • OpenAI、「ChatGPT」と「Whisper」のAPIを公開 料金体系、データの利用ポリシーは?

                                            AI関連技術を開発する非営利組織OpenAIは2023年3月1日(米国時間)、対話に特化した言語モデル「ChatGPT」と汎用(はんよう)の音声認識モデル「Whisper」をAPIで利用できるようにしたと発表した。APIの公開に合わせて、利用規約を開発者ニーズにより良く対応できるように改訂したことも明らかにした。 ChatGPT APIは1000トークン当たり0.002ドルで提供 関連記事 ChatGPTとは何か そのできること/できないこと OpenAIがリリースした人との対話をターゲットとする大規模な言語モデル「ChatGPT」。その概要について見てみましょう。 サイバー犯罪者も「ChatGPTを使ってコーディング」をしている チェック・ポイント チェック・ポイント・ソフトウェア・テクノロジーズは脅威アクターがOpenAIのChatGPTを悪用して悪質なコードを生成していることを、実例

                                              OpenAI、「ChatGPT」と「Whisper」のAPIを公開 料金体系、データの利用ポリシーは?
                                            • Windows版「OneNote」アプリに文字起こし機能 ~複数話者を識別、ペン入力と同期再生も/まずは「Office Insider」で。段階的に提供範囲を拡大

                                                Windows版「OneNote」アプリに文字起こし機能 ~複数話者を識別、ペン入力と同期再生も/まずは「Office Insider」で。段階的に提供範囲を拡大
                                              • 無償のiOS版「ChatGPT」を早速使ってみた ~ついに来た公式アプリは優秀な音声入力機能がいい!/基本は同じでも直感的かつスムーズな手触りに好印象【やじうまの杜】

                                                  無償のiOS版「ChatGPT」を早速使ってみた ~ついに来た公式アプリは優秀な音声入力機能がいい!/基本は同じでも直感的かつスムーズな手触りに好印象【やじうまの杜】
                                                • 小学5年生、生成AIを活用したボタン会話アプリを開発

                                                  小学5年生、生成AIを活用したボタン会話アプリを開発2023.11.14 17:007,202 福田ミホ ちゃんと使える生成AI。 公開から約1年経った生成AI、ChatGPT。その受け答えの賢さに多くの人が衝撃を受けて爆発的に広がりましたが、素のチャットとして日常的に使う人はそんなに多くはなく、ユーザーが減ってるなんて話もありました。 でも、これならたしかに使えそう!と希望が広がるアプリを見つけましたのでご紹介しますね。 場面緘黙当事者の小学5年生が開発それが、場面緘黙(かんもく)症(特定の状況で声を出して会話ができなくなる)の当事者である上田蒼大氏が開発したアプリ「Be Free」です。 上田氏は人前での会話全般ができないので、普段から筆談やジェスチャーで会話をしていましたが、時間がかかったり、細かいニュアンスが伝わりにくかったりするのが悩みでした。そんなとき、自分の言いたいことをパッ

                                                    小学5年生、生成AIを活用したボタン会話アプリを開発
                                                  • 出来栄えはほぼ完璧!ワンクリック起動で手軽な文字起こしアプリ「toruno」【今日のライフハックツール】 | ライフハッカー・ジャパン

                                                    毎日使いたいほど気持ちがいい!「ストレッチポールに寝転ぶだけ」で呼吸の浅さや疲れやすさが改善【今日のライフハックツール】

                                                      出来栄えはほぼ完璧!ワンクリック起動で手軽な文字起こしアプリ「toruno」【今日のライフハックツール】 | ライフハッカー・ジャパン
                                                    • Whisperで文字起こしをした文章をChatGPTでいい感じにする

                                                      Whisperで文字起こしした文章をいい感じにしたい 注:あくまで個人的な使用を前提とした文字起こしの方法の紹介です。許可なく、他人のコンテンツを全部文字起こしして公開すると、著作物の改変などの問題になる可能性があると思います タイトル通りです。 Whisperで文字起こしをしました。 ただ、以下のように句読点がない文章になってしまい、読みづらいです。 樋口 世界の歴史キュレーションプログラム コテンラジオ樋口 世界の歴史キュレーションプログラム コテンラジオパーソナリティーの株式会社ブック代表樋口清則 です深井 そして株式会社コテンの深井 隆之介です樋口 そして株式会社コテンの楊 英史です樋口 このラジオは歴史を愛し歴史 の面白さを知りすぎてしまった深井さんを代表とする株式会社 コテンのお二人と一緒に学校の授業ではなかなか学べない国内外 の歴史の面白さを学んじゃおうという番組ですよろしく

                                                        Whisperで文字起こしをした文章をChatGPTでいい感じにする
                                                      • iPhoneでChatGPT。iOSアプリが日本でも公開

                                                          iPhoneでChatGPT。iOSアプリが日本でも公開
                                                        • ‎ChatGPT

                                                          Introducing ChatGPT for iOS: OpenAI’s latest advancements at your fingertips. This official app is free, syncs your history across devices, and brings you the newest model improvements from OpenAI. With ChatGPT in your pocket, you’ll find: · Voice mode—tap the Headphones icon to speak on the go, request a bedtime story for your family, or settle a dinner table debate. · Creative inspiration—birthd

                                                            ‎ChatGPT
                                                          • OSSの音声エージェント「Mycroft」を試す、自作の費用対効果はいかに

                                                            Google Home、Amazon Echo、Apple HomePodなど、いまやスマートスピーカーは当たり前の時代になっているが、オープンソースソフトウエア(OSS)のスマートスピーカーソフトウエアが存在するのは知っているだろうか。英語にしか対応していないため日本ではほとんど話題になることはないが、今回はRaspberry Piでも動作するMycroft紹介しよう。 Mycroftとは何か MycroftとはMycroft AIが提供するオープンソースの音声バーチャルアシスタントだ。商用のスマートスピーカーはプライバシー保護の観点で心配されることが多いが、Mycroftはそれを解決するべく立ち上げられた。同社では、このオープンソースのMycroftを組み込んだMark Iというハードウエア製品を販売していた。現在はMark IIの販売を予定しており予約販売している。 同社ではMycr

                                                              OSSの音声エージェント「Mycroft」を試す、自作の費用対効果はいかに
                                                            • 「Google Meet」の字幕が日本語に対応、英日翻訳も可能に

                                                                「Google Meet」の字幕が日本語に対応、英日翻訳も可能に
                                                              • ChatGPTをApple Watchから使える「Petey (旧watchGPT)」がGPT-4や回答への返信をサポート。

                                                                ChatGPTをApple Watchから使える「Petey (旧watchGPT)」がGPT-4やマルチプロンプトに対応しています。詳細は以下から。 MacのメニューバーからOpenAIやMicrosoftのチャットAIを利用できる「MacGPT/MacBing」などを開発しているJordi BruinさんとHidde van der Ploegさんは現地時間2023年03月21日、Apple WatchでChatGPTを利用することができる「Petey (旧watchGPT)」の最新バージョンとなるv1.2をリリースし、新たにGPT4に対応しています。 We are always looking for ways to improve Petey’s performance, and we are happy to inform you that we have upgraded to

                                                                  ChatGPTをApple Watchから使える「Petey (旧watchGPT)」がGPT-4や回答への返信をサポート。
                                                                • ‎ChatGPT

                                                                  It’s basically sentient Google ChatGPT centralizes all your information and makes it a more seamless experience to deliver exactly what it is you are looking for. For this reason, you will hardly have to use Google while you have ChatGPT around. This thing is the Mecca of all search engines. But not only is it a super intelligent search engine, you can also have conversations with ChatGPT4o, and b

                                                                    ‎ChatGPT
                                                                  • Windows 11の音声入力をメインにするのか、Pixel 7の音声入力をメインにするのかいまだに悩んでいます - 勝間和代が徹底的にマニアックな話をアップするブログ

                                                                    GoogleのPixelが6から7になってスピードがアップしました。 Pixelの音声入力よりも Windows11 の音声入力の方が微妙に同音異義語に対する正確性が上なので、最近はずっと Windows 11の音声入力を使っていたのですが、さすがにPixel 7の音声入力がここまで速くなると多少間違えたとしても、その修正のスピードを考えたらどうもピクセルの方が良さそうです。 どれぐらい速いかと言うと、 Windows 11の場合は入力してから少し考えて修正しながら入力が始まってピッと出てくるのですが、Pixel7の場合には音声入力ボタンを押し、終わった瞬間にほぼリアルタイムで出ます。 まあ、さすがにこれはサーバー側で処理をしてるのか、それとも手元のスマホのチップ側で処理をしてるかの差なのでハードウェアで組み込まれた方にはかなわないのかな?と言った印象です。 遅いけれどもちょっと待ったない

                                                                      Windows 11の音声入力をメインにするのか、Pixel 7の音声入力をメインにするのかいまだに悩んでいます - 勝間和代が徹底的にマニアックな話をアップするブログ
                                                                    • 「ミトマの英語は頼もしい」米記者が絶賛…なぜ“三笘薫の現地動画”に驚いた? 「細かいミスはあるが…」「堪能さよりも『何を話すか』」―2022下半期 BEST5(田中仰)

                                                                      11月上旬、Twitter上である投稿が話題になった。日本在住のアメリカ人記者が、サッカー日本代表・三笘薫のインタビュー動画に対して、「三笘が英語で取材に応える姿は頼もしい」「若い世代は英語を学ぶ重要性を理解しているようだ」といったコメントを投稿したのだ。なぜ三笘の英語に“頼もしさ”を感じたのか。投稿したダン・オロウィッツ記者(ジャパンタイムズ所属/36歳)に真意を聞いた。 ◆◆◆ ――ダンさんが11月7日に投稿したツイートが話題を呼びました。 Really encouraging to see Kaoru Mitoma doing postgame interviews in English. After a long period in the 2010s in which many Japanese players in Europe struggled with communica

                                                                        「ミトマの英語は頼もしい」米記者が絶賛…なぜ“三笘薫の現地動画”に驚いた? 「細かいミスはあるが…」「堪能さよりも『何を話すか』」―2022下半期 BEST5(田中仰)
                                                                      • 話者を区別できる文字起こしツール「CLOVA Note」、キーワードも自動抽出

                                                                        セミナーや会議の内容をテキスト化しておくと後から振り返りやすい。しかし、音声をテキスト化する、いわゆる文字起こしの作業は、長時間にわたるセミナーや参加者が複数いる会議などでは担当者の負担が大きい。そこで、文字起こしツールを利用する人も多いだろう。 筆者も職業柄、インタビューや講演の文字起こしをする機会が多く、文字起こしツールをいくつか使ってきた。現在は、今回紹介する「CLOVA Note(クローバ・ノート)」を仕事の相棒として頼りにしている。 CLOVA Noteは、LINEのAIテクノロジーブランド「LINE CLOVA」によるAI音声認識アプリだ。音声認識エンジンはLINE CLOVAが開発した「CLOVA Speech」が使用されている。2022年5月からベータ版として無料提供が開始された。 スマートフォンアプリ(iOS/Android)を起動し、アプリで録音した後に文字起こしするか

                                                                          話者を区別できる文字起こしツール「CLOVA Note」、キーワードも自動抽出
                                                                        • OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします

                                                                          インター・ラボ株式会社(本社:大阪府大阪市、代表取締役:長山 清志)は、Whisperを利用した音声文字起こしAPI、「WhisperAPI」の無償提供を12月15日(木)より開始します。その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外部サービスと連携するなど幅広いお客様にご利用いただきたいと考えております。また、APIだけではなくプログラミングの知識をお持ちでない方でも、ブラウザで簡単にご利用いただけるwebサービスも提供いたします。 音声認識モデル「Whisper」とは Whisperとは「DALL・E2」、「GPT-3」などを開発しているOpenAIが開発した汎用的な音声認識モデルです。 教師あり学習で68万時間というデータで学習しており、日本語を含む多言語の音声を高精度で文字起こしします。 その高い音声認識精度を持つWhisperを用いたAPIを無償提供し、外

                                                                            OpenAIリリースの音声認識モデル「Whisper」APIの無償提供を開始いたします
                                                                          • Whisperで文字起こしする方法(ローカル環境にDockerを添えて)

                                                                            音声のテキスト変換 Web上にいくらでも情報があるWhisperでの文字起こしです。API使うとお金がかかるので、ローカル環境でDocker使って(Docker使えれば)手軽に実行できるのが特徴です。 CPUでもGPUでも動きます。Apple SiliconMacでもLinuxでも多分Windows(WSL2)でも動きます。 Dockerファイルや使うソフトはGitHubのリポジトリに公開しています。 この記事は上記リポジトリの自分のための使い方のメモです。 使い方 ファイル準備 文字起こしする音声ファイルを用意します。ここではinput.mp3とします。 Docker準備 Dockerがない人は、Dockerをインストールしましょう。LinuxかWindows(WSL2)なら、とりあえず以下コマンドを実行すればOKです。Macの人はDockerデスクトップを使いましょう。 $ curl

                                                                              Whisperで文字起こしする方法(ローカル環境にDockerを添えて)
                                                                            • [スタパ齋藤の「スタパトロニクスMobile」] Macのテキスト音声入力に最適なマイクとは?

                                                                                [スタパ齋藤の「スタパトロニクスMobile」] Macのテキスト音声入力に最適なマイクとは?
                                                                              • [みんなのケータイ]Pixelのレコーダーアプリの「話し手のラベル付け(Speaker labels)」機能を検証してみた

                                                                                  [みんなのケータイ]Pixelのレコーダーアプリの「話し手のラベル付け(Speaker labels)」機能を検証してみた
                                                                                • 日本語音声認識API主要5社比較

                                                                                  1. 日本語音声認識の比較実験実際にそれぞれのAPIを使用して同一の音声データをテキスト化。 正解のテキストと比較して認識精度を評価する。 1.1. 音声認識の評価指標CER(Character Error Rate)によって評価を行う。 CERとは、例えば正解テキストが「こんにちは」だったとして「こんばんは」と認識された場合、 5文字中2文字が間違っているため「CER=2/5=40%」のようにエラー率を計算する評価指標。 pythonではjiwerというライブラリを使用することで簡単に計算できる。 エラー率なので値が小さいほど精度が良いことになる。 本記事における実験結果ではCERの逆数、つまり正解率を記載しているため値が大きいほど精度が良い。 1.2. 認識する音声データ声優事務所の音声サンプルを使用した。 アイムエンタープライズの公式WEBサイトは音声サンプルの長さがほどよく、ファイ

                                                                                    日本語音声認識API主要5社比較

                                                                                  新着記事