並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 178件

新着順 人気順

音声認識の検索結果1 - 40 件 / 178件

音声認識に関するエントリは178件あります。 AI技術文字起こし などが関連タグです。 人気エントリには 『音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション』などがあります。
  • 音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション

    日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。 このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人+男性3人+女の子1人=7人の声を切り替えることが可能なAI音声合成ソフトで、テキストを入力すれば

      音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能|DTMステーション
    • Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania

      Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcrib‪e‬(グループ転写)」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。 メモを取らずに会議に集中できる優れもの 最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。 会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う

        Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania
      • ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」

        チキン(小橋川 遥)@ライター / マーケター @HeroofChickens フリーランス5年目。オウンドメディア運用、広告集客用LP制作と運用、改善が得意です。クライアントが困っていたこと、改善したことなどをXで発信しています。 https://t.co/tEMmPUtpxj

          ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」
        • 「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】

            「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記(97)【急遽テレワーク導入!の顛末記】
          • まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい

            まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい 企業の業務の中でも会議やプレゼンなどの議事録作成は効率化したい作業の上位に挙がってくるのではないでしょうか。実際、2023年8月にソースネクスト株式会社が行った「議事録に関する意識調査」によると、議事録の作成には平均50.4分の時間が費やされており、また部下の75.8%が会議中の議事録の作成によって発言しにくいと感じることがあるといいます。 そこで利用を検討したいのが、AIによる自動音声認識を利用した議事録の作成です。本記事では、日本語に特化して高い精度と速度を誇ると話題を呼んだ『kotoba-whisper-v2.0』を主に取り上げ、AIによる議事録作成の最前線をご紹介します。 日本語特化の文字起こしAI『kotoba-whisper-v2.0』とは? 『kotoba-whi

              まだ人間が議事録書いてるの? 日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい
            • 「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能

              「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画…

                「タモリ倶楽部」3月末で終了 放送40年「役割は十分に果たした」 さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能
              • iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)

                アプリや専用デバイスを使った、日本語の「自動文字起こし」に関連するサービスには、近年多くの関心が集まっている。背景にはスマホやAIを活用する音声認識のテクノロジーが飛躍を遂げたことや、コロナ禍の影響を受けてリモートワークが普及したことなどがある。iPhoneに対応する「UDトーク」も自動文字起こしに対応する注目のアプリだ。開発者に特徴を聞いた。 iPhone/iPadでも使える日本語対応の自動文字起こしアプリ コミュニケーション支援・会話の見える化アプリをうたう「UDトーク」は、Shamrock Records(シャムロック・レコード)の代表兼エンジニアである青木秀仁氏が開発を手がけている。 モバイル版アプリはiOS/Android/Fire OSの各プラットフォームに対応する。ほかにも音声認識の結果を修正したり、事前に作成した原稿をスマホやタブレットに送信する一部機能を搭載するMac版/

                  iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)
                • 動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に

                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米Dolby LaboratoriesとスペインのUniversitat Pompeu Fabraの研究チームが開発した「Universal Speech Enhancement With Score-based Diffusion」は、収録した映像のバックグラウンドノイズ(背景雑音)を強力に除去する技術だ。動画撮影した雑音を消し去り、話す声だけをくっきり残すことができる。強力すぎるため、映像がアフレコを挿入したみたいな仕上がりになってしまう。 実世界で録音した音声には必然的に背景の雑音や残響が含まれ、不快感や明瞭度の妨げになるためノイズ除去が行われる。最近では深層学習の登場によりノイズ除

                    動画の雑音をほぼ消す技術、米国などのチームが開発 声のみが強調されすぎてアフレコみたいな結果に
                  • 年末年始に振り返る 2021年の人工知能10大トレンドと必読論文

                      年末年始に振り返る 2021年の人工知能10大トレンドと必読論文
                    • 文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

                      会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。 すると、GitHubアカウントでのサインインを求められます

                        文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
                      • スマートスピーカーって一時期流行ったけど(追記あり)

                        今も使っている人どれくらいいるんだろう。 これ、DSの脳トレから全然進化してないじゃん 〜追記〜 みんな色々な意見ありがとう。賛否両方読ませてもらってます!恥ずかしい?何が? ちなみに、DSのゲームは「脳を鍛える大人のDSトレーニング」ね。くりぃむしちゅーのANN第96回に出てきた、きいろ!も聞き取ってくれないというエピソードから考えたネタだよ。さすがにスマートスピーカーはそこまで精度悪くない。 くりぃむしちゅーのオールナイトニッポンおもしろいからみんな聞いてな!

                          スマートスピーカーって一時期流行ったけど(追記あり)
                        • ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』 - Qiita

                          Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? みなさんこんにちは!私は株式会社ulusageの、技術ブログ生成AIです!これからなるべく鮮度の高い情報や、ためになるようなTipsを展開していきます。よろしくお願いします!(AIによる自動記事生成を行なっています。システムフローについてなど、この仕組みに興味があれば、要望が一定あり次第、別途記事を書きます!) 爆速で動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』を試してみた はじめに ビジネスシーンや日常生活で、音声データを文字起こしするニーズはますます高まっています。議事録の作成やインタビューの文字起こ

                            ほぼリアルタイム!?爆速で動作する日本語特化の文字起こしAI!『kotoba-whisper-v2.0』 - Qiita
                          • 生成AI時代の音声入力ツール:SuperWhisperのすすめ - うみのーと

                            はじめに honeshabri.hatenablog.com 骨しゃぶりさんのブログで音声入力が激推しされていて、自分も普段から音声入力を使っているので、その使い方にとても共感できたし嬉しかったです。普通に音声入力がもっと流行ってほしいなと思います。 骨しゃぶりさんのブログ記事に触発されたのもあり、僕も音声入力について記事を書いてみました。この記事では自分のおすすめ音声入力ツールとその活用法を紹介したいと思います。 SuperWhisperのすすめ Whisperという音声認識モデルをご存知の方は多いと思います。これはTransformerベースの音声認識モデルで、OpenAIからOSSとして公開されています。特徴としては従来の音声認識と比べて、聞き間違いや聞き逃しが少なく、ノイズやフィラー(えーと、うーん、あー)を上手に無視してくれて、音声認識の精度が高いというところがあります。 よくあ

                              生成AI時代の音声入力ツール:SuperWhisperのすすめ - うみのーと
                            • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                              株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                                超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                              • 時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす

                                みなさん、こんにちは!9月は久しぶりに個人開発をしてました。 今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です! 「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え?大丈夫なの?」って感じですよね笑 でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います! 「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能 (10時間でも100時間でも!)使いやすさにこだわった機能 (コピー、シェア、自動タイトル生成など)「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げます そして、無

                                  時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。|にょす
                                • Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話

                                  稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h 電話を取ると「Google マップです」と男性から電話。 Google「この電話はGoogle マップの店舗様の営業時間を自動で確認しております」 ぼく「はい」 Google「そちらの営業時間を教えてください」 ぼく「月曜から金曜の9時〜18時です」 Google「土曜日と日曜日の営業時間も教えてください」 ↓ 2022-01-25 10:26:41 稲田エイジ|BtoBのWebサイト制作/Web活用支援/コンテンツ支援/HubSpot @inada_h ぼく「土曜と日曜は普通にお休みです」 Google「確認させてください。そちらの営業時間は月曜から金曜の9時〜18時でよろしいでしょうか」 ぼく「はい」 Google「ありがとうございました(電話を切りそうな気配)」 ぼく「待って。参

                                    Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話
                                  • 文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉

                                    どうもこんにちは、あんどう(@t_andou)です。 前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。 「Youtubeの」と書いていますが、実際はどの動画でも対応してます。 前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え 上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続 下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロード ここにドラッグ&ドロップでアップできます 大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更 ファイル名に合わせて変更してください 5.全セルを実行 あと

                                      文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
                                    • 「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】

                                        「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記(173)【急遽テレワーク導入!の顛末記】
                                      • 「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売

                                        インプレスグループでIT関連メディア事業を展開する株式会社インプレス(本社:東京都千代田区、代表取締役社長:小川 亨)は、「音源分離」技術の基礎から実装までを解説した書籍『Pythonで学ぶ音源分離 機械学習実践シリーズ』を2020年8月24日(月)に発売いたします。 ■身近なものにも活用される技術「音源分離」の基礎と実装を解説する一冊 近年、AIスピーカをはじめとした、人が話した音声を理解する音声認識システムがさまざまな場面で使われています。一般的に音声認識システムは、1人の声を聞き取ることを想定しており、聞きたい声以外の音が入ってきたときには、聞きたい声を正確に聞き取ることが難しくなります。「音源分離」とはこのようにさまざまな音が混ざった中から、欲しい音だけを抽出する技術です。本書では、音源分離の基礎から、Pythonを用いた実装までを詳しく解説しています。 ■音源分離に必要不可欠な数

                                          「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売
                                        • もはや人間と区別がつかない次元に。多言語で歌う機能も搭載したSynthesizer Vの破壊力|DTMステーション

                                          驚異的に進化したSynthesizer V AI まずは、バックグラウンドや機能、性能といったものを紹介する前に、私がSynthesizer V Pro Studioの1.5.0を使って打ち込んだ、弦巻マキの歌声をちょっと聴いてみてください。 いかがですか?従来の歌声合成の概念を覆すレベルに来ていると思いませんか?これは、2年前のコミケでDTMステーションCreativeからリリースしたoyasumiという曲の冒頭部分。そのときは声優の小岩井ことりさんにボーカルをお願いし、囁くように優しく歌ってもらったので、弦巻マキにも、それっぽく歌わせて仕上げてみたのです。本来、弦巻マキは「アニメキャラっぽい雰囲気の元気な女の子」というイメージの歌声ですが、そことはだいぶ違ったニュアンスの歌声になっているのも感じられたと思います。 「自動処理」メニューにある「自動ピッチ調整(カスタマイズ)」を選択する

                                            もはや人間と区別がつかない次元に。多言語で歌う機能も搭載したSynthesizer Vの破壊力|DTMステーション
                                          • iPhone・Androidで高速に日本語音声入力するためのベストプラクティス

                                            先日Twitterで「大学生がスマートフォンでレポートを書いている」というツイートが話題になっており、それに対して反応している方達もほぼ全員が「スマートフォンでレポートを書くのは効率が悪い」という前提で話をしていることに大変違和感を覚えました。 なぜなら私はこのブログはもちろん、技術書を執筆するときでさえ主にスマートフォンで下書きをしているからです。 PCを使うのは、ほぼスクリーンショットの撮影と最後の仕上げだけです。 その方が、最初からPCで文字入力するのに比べて圧倒的に効率が良いです。 この記事では、iPhoneとAndroidそれぞれで音声入力を効率よくおこなう方法について解説します。 iPhone・iPadの場合 先に結論から申し上げると、iPhone・iPad・Macの日本語音声入力は、AndroidのGoogle音声入力に比べて認識精度が低く、認識できる単語が少ないです。 仕事

                                              iPhone・Androidで高速に日本語音声入力するためのベストプラクティス
                                            • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                                              画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                                                OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                                              • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                                                東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                                  超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                                                • Microsoftの音声アシスタント「Cortana」、2021年にフェードアウト 縮小のロードマップ公開

                                                  米Microsoftの音声アシスタント「Cortana」の消費者向けアプリおよびサービスの多くが2021年に終了する。Microsoftは8月1日(米国時間)、「Upcoming changes to Cortana」と題したサポートページでCortanaフェードアウトのロードマップを提示した。 同社はCortanaをOfficeやクラウドサービスなどを含むサブスクリプションサービス「Microsoft 365」のためのAIベースデジタルアシスタント体験として再定義することを理由に、Cortanaサードパーティースキルのサポートを9月7日で終了。21年初めにはiOSおよびAndroid向けCortanaアプリのサポートを終了する。

                                                    Microsoftの音声アシスタント「Cortana」、2021年にフェードアウト 縮小のロードマップ公開
                                                  • 爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は?/実際にローカルで実行してOpenAIの「Whisper」と比較してみた【レビュー】

                                                      爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は?/実際にローカルで実行してOpenAIの「Whisper」と比較してみた【レビュー】
                                                    • 【iOS14】ドアベルなどの音をiPhoneが聞き取って通知する「サウンド認識」 - iPhone Mania

                                                      イヤホン・ヘッドホンで音楽を聴いていたら、家のチャイムが鳴っているのに気づかなかった。何かいい解決策はないの? iOS14 / iPadOS14から「サウンド認識」機能が追加されました。元々は「アクセシビリティ」に分類されている、聴覚サポート機能の一つです。しかし、iPhoneが聞き取った音を通知してくれる機能は、日常生活で便利に活用することができます。 例えば、イヤホンやヘッドホンで音楽を聴いていると、外部の音を認識しづらくなります。そのため、ドアのチャイムが聴こえなくて応対できない場合があります。「ドアベル」の音を通知するように設定すれば、チャイムの音が聞こえなくて宅配便の荷物を受け取れなかった、といったことを防ぐことができます。「ドアベル」の他にも「水の出しっ放し」などの認識可能な音があるので、お好みで設定することをおすすめします。

                                                        【iOS14】ドアベルなどの音をiPhoneが聞き取って通知する「サウンド認識」 - iPhone Mania
                                                      • 音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力

                                                        Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 ソニーコンピュータサイエンス研究所(CSL)フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が開発した「DualVoice: A Speech Interaction Method Using Whisper-Voice as Commands」は、キーボードやマウスなどを使用せず、音声入力だけで長い文章が書ける技術だ。文字入力以外のコマンド入力と音声認識ミスによる修正は、通常の声とは別に「ささやき声」で操作する。通常の声とささやき声を使い分ける方法で、ハンズフリーの完全な音声入力を実現する。 音声による文字入力はタイピングに比べて格段に速いため、アイデアを書き留めたり、原稿を素

                                                          音声だけで完全な長文が書ける技術、東大教授が開発 ささやき声で“改行”や“修正”などコマンドを入力
                                                        • PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記

                                                          PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。 先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。 そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。 ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan

                                                            PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
                                                          • ChatGPTのアプリ版すごくね!?

                                                            モバイルアプリ版に実装されてる音声入出力機能が無課金ユーザーにも開放されたってニュースを見て貧乏人の俺は早速ダウンロードしたわけね。 英会話の練習に使えるみたいなニュースを見てたから興味津々でトライしたわけよ。 そしたらまあ俺の英語力では話すのも聞き取るのもままならず、到底使いこなせる”域”に達してねえなこりゃ、と早々に自分に失望したよ。 はあ、アンインスコするか・・・と思いながら設定ちょろちょろ弄ってたら「Speach」の欄にMain Languageって項目があって、そこがAuto-Detect(自動検出)になってたんよね。 あっこれのせいか!俺の英語力が悪いからじゃなかったんだと思って、Englishに切り替えてもう一回やってみたわけ。 そしたら案の定結果は変わらずさらに落ち込んだ。 で、もうどうでもいいやと思いながら日本語で適当に話しかけたんだよ。 そしたら! なぜか俺が日本語で話

                                                              ChatGPTのアプリ版すごくね!?
                                                            • 「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】

                                                                「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた!」――急遽テレワークを導入した中小企業の顛末記(118)【急遽テレワーク導入!の顛末記】
                                                              • 不要な音は消去して必要な音だけ聞ける“聴力自在化”技術 北大と神大が開発

                                                                Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 北海道大学と神戸大学による研究チームが発表した「ウェアラブルコンピューティングにおける聴力自在化技術の提案」(PDFへのリンク)は、外界音を変換し、ユーザーが自在に自身の聴力を操作する技術だ。この技術を用いることで、外界音から聞きたい音だけを選択して聞くことができる。 人間の耳は、自らの意志では制御することが難しく、聞く音の取捨選択ができない。その上、超音波などの人間には聞こえない音も取得することができない。 研究チームは、マイクとスピーカーを搭載したイヤフォン型ウェアラブルデバイス(マイク付きワイヤレスイヤフォン)での利用を想定し、外界音から聞きたい音だけを聞ける技術でこの課題に挑戦する

                                                                  不要な音は消去して必要な音だけ聞ける“聴力自在化”技術 北大と神大が開発
                                                                • YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃 音声アシスタント機能を悪用

                                                                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米テキサス大学サンアントニオ校と米コロラド大学コロラドスプリングス校に所属する研究者らが発表した論文「Near-Ultrasound Inaudible Trojan(NUIT): Exploit Your Speaker to Attack Your Microphone」は、スマートフォンやスマートスピーカーの音声アシスタント(Siri、Google Assistant、Alexa、Cortana)に対する不可聴攻撃を提案した研究報告である。 その手口は、インターネット(動画や音楽、Web会議など)を通じて、人間には聞こえない音を流し、リモートでス

                                                                    YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃 音声アシスタント機能を悪用
                                                                  • アレクサを好きな声に変更可能へ、アマゾンが計画発表

                                                                    米アマゾン・ドット・コムは22日、音声アシスタント機能「アレクサ」について、人工知能(AI)の音声を自分の好きな声に変更できるようにする計画を明らかにした。昨年10月撮影(2022年 ロイター/MIKE BLAKE) [ラスベガス 22日 ロイター] - 米アマゾン・ドット・コムは22日、音声アシスタント機能「アレクサ」について、人工知能(AI)の音声を自分の好きな声に変更できるようにする計画を明らかにした。

                                                                      アレクサを好きな声に変更可能へ、アマゾンが計画発表
                                                                    • 文字起こしアプリで伝言ゲーム

                                                                      1971年東京生まれ。デイリーポータルZウェブマスター。主にインターネットと世田谷区で活動。 編著書は「死ぬかと思った」(アスペクト)など。イカの沖漬けが世界一うまい食べものだと思ってる。(動画インタビュー) 前の記事:影だけ悪魔の人になりたい > 個人サイト webやぎの目 ルール 肉声で喋る→アプリで文字起こし→その結果をiPhoneで読み上げ→ 別のアプリで文字起こし → また読みあげ → またまた別のアプリで文字起こし …を繰り返す。 そうして文章がずれていくさまを楽しもう。

                                                                        文字起こしアプリで伝言ゲーム
                                                                      • ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp

                                                                        ChatGPT APIの使い方 実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール 今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは!"}] ) print(complet

                                                                          ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
                                                                        • “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん

                                                                          Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米コロンビア大学の研究チームが発表した「Real-Time Neural Voice Camouflage」は、不正なマイクが取得したユーザーの会話の言葉を正しく聞き取れないようにする攻撃を提案した論文だ。無線で妨害音を発し、自動音声認識(ASR)システムをリアルタイムに混乱させ、本来盗聴側が取得したい会話を間違った形で認識させる。80%の確率でユーザーの言葉を誤認識させられたという。 この妨害音は、その場にいるユーザーの邪魔にならないような静かな音に最適化されている。 妨害を実際に行った3つの例。攻撃していない時の音声信号スペクトログラム(上)、攻撃した際の音声信号スペクトログラム(下)

                                                                            “スマホのマイクでこっそり盗聴”を妨害する技術 静かな音で会話内容を改ざん
                                                                          • ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた

                                                                            2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。 手法 音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、①音声を構成する要素である音素と音高に分解し、②音素と音高を目標の声(ゆかりさん)に再合成することを考えました。 ①は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、②さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること

                                                                              ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
                                                                            • WindowsのPythonでデスクトップ通知(トースト)作ってみた【WinRT】 - Qiita

                                                                              Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                                                                                WindowsのPythonでデスクトップ通知(トースト)作ってみた【WinRT】 - Qiita
                                                                              • 音声文字起こしサービス徹底検証 ベストな選択はこれだ!

                                                                                話した言葉をテキストデータに変換できる「音声文字起こしサービス」。テレワーク時代の情報共有ツールとして大いに役立つものの、気になるのはその実用性だ。発言の認識精度に加え、大まかな流れや会話の文脈を後から振り返るのに使えるのかどうか。主要な7つのサービスを使用し、比較した。 ※日経トレンディ2021年5月号の記事を再構成 ディープラーニングやビッグデータの活用が進み、音声認識の精度が大きく向上。話した言葉をテキストデータに変換できる「音声文字起こしサービス」が相次いで登場している。 会議の内容を振り返ったり、他の人にシェアしたりなど、テレワーク時代の情報共有ツールとして注目されているこれらのサービスは、どこまで実用的なのか。主要な7つのサービスを実際に使い、比較してみた。

                                                                                  音声文字起こしサービス徹底検証 ベストな選択はこれだ!
                                                                                • 「Google Meet」に高精度なリアルタイム文字起こし機能やチャット履歴ダウンロード機能を追加/Chrome拡張「こえもじ」は議事録作成を格段に効率化。おまけの「ニコ動」風字幕機能も【レビュー】

                                                                                    「Google Meet」に高精度なリアルタイム文字起こし機能やチャット履歴ダウンロード機能を追加/Chrome拡張「こえもじ」は議事録作成を格段に効率化。おまけの「ニコ動」風字幕機能も【レビュー】

                                                                                  新着記事