音声認識の人気記事 178件 - はてなブックマーク

1 - 40 件 / 178件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

音声認識の検索結果1 - 40 件 / 178件

音声認識に関するエントリは178件あります。 AI、技術、文字起こしなどが関連タグです。人気エントリには『音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能｜DTMステーション』などがあります。

音声合成業界に激震! もはや人間の喋り声、入力文字読み上げソフトVOICEPEAKはビジネス用途でも自由に利用可能｜DTMステーション
- 2036 users
- www.dtmstation.com
- テクノロジー
- 2022/02/17
日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人＋男性3人＋女の子1人＝7人の声を切り替えることが可能なAI音声合成ソフトで、テキストを入力すれば
- AI
- あとで読む
- 音声合成
- DTM
- ソフトウェア
- ツール
- 音声
- ビジネス
- ソフト
- 技術
Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 - iPhone Mania
- 1238 users
- iphone-mania.jp
- テクノロジー
- 2021/03/16
Microsoft、文字起こしアプリ「Group Transcrib‪e‬」を公開 2021 3/16 Microsoftは3月上旬、対面での会議や会話のためのリアルタイムのテープ起こしと翻訳を提供する「Group Transcrib‪e‬（グループ転写）」のiOSアプリをリリースしました。会議の参加者がそれぞれのデバイスで使用することができます。メモを取らずに会議に集中できる優れもの最先端のAI音声・言語技術を搭載したGroup Transcribeで、会話の参加者は共有セッションを開始し、それぞれが携帯電話のマイクを使用して、リアルタイムで誰が何を言ったかを示す、非常に正確なトランスクリプトをキャプチャできます。会話の高品質な記録に自信を持つことで、ユーザーはメモを取る必要がなくなり、会話そのものに注意を集中させることができます。トランスクリプトは、共有したり、再配置も簡単に行う
- microsoft
- アプリ
- あとで読む
- 文字起こし
- iphone
- ツール
- 仕事
- 日本語
- 音声認識
- 言語
ついに音声対話できるようになった ChatGPT が引くほど自然でなんか凄いし怖い「もうこれ人間じゃん!」
- 891 users
- togetter.com
- テクノロジー
- 2023/09/28
チキン（小橋川遥）＠ライター / マーケター @HeroofChickens フリーランス5年目。オウンドメディア運用、広告集客用LP制作と運用、改善が得意です。クライアントが困っていたこと、改善したことなどをXで発信しています。 https://t.co/tEMmPUtpxj
- ChatGPT
- AI
- あとで読む
- togetter
- 人工知能
- 技術
- 音声
- technology
- 文章生成AI
- 文章
「iPhoneの音声出力をPCに繋いだら、電話もYouTubeも自動で文字起こしできるようになった」――急遽テレワークを導入した中小企業の顛末記（97）【急遽テレワーク導入！の顛末記】
- 779 users
- internet.watch.impress.co.jp
- テクノロジー
- 2022/05/02
- 音声認識
- あとで読む
- iphone
- 文字起こし
- ツール
- PC
- youtube
- 企業
- tips
- 便利

まだ人間が議事録書いてるの？日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい
- 664 users
- data.wingarc.com
- テクノロジー
- 2025/01/31
まだ人間が議事録書いてるの？日本語特化の文字起こしAI『kotoba-whisper-v2.0』がスゴいらしい企業の業務の中でも会議やプレゼンなどの議事録作成は効率化したい作業の上位に挙がってくるのではないでしょうか。実際、2023年8月にソースネクスト株式会社が行った「議事録に関する意識調査」によると、議事録の作成には平均50.4分の時間が費やされており、また部下の75.8%が会議中の議事録の作成によって発言しにくいと感じることがあるといいます。そこで利用を検討したいのが、AIによる自動音声認識を利用した議事録の作成です。本記事では、日本語に特化して高い精度と速度を誇ると話題を呼んだ『kotoba-whisper-v2.0』を主に取り上げ、AIによる議事録作成の最前線をご紹介します。日本語特化の文字起こしAI『kotoba-whisper-v2.0』とは？『kotoba-whi
- AI
- あとで読む
- 文字起こし
- 仕事
- LLM
- 日本語
- 学習
- 議事録
- 開発
- tool
「タモリ倶楽部」3月末で終了　放送40年「役割は十分に果たした」　さらば空耳アワー、マニアック企画… - スポニチ Sponichi Annex 芸能
- 647 users
- www.sponichi.co.jp
- エンタメ
- 2023/02/22
「タモリ倶楽部」3月末で終了　放送40年「役割は十分に果たした」　さらば空耳アワー、マニアック企画…
- テレビ
- 芸能
- TV
- タモリ
- あとで読む
- 歴史
- タモリ倶楽部
- エンタメ
- media
- ニュース
iPhone対応“自動文字起こし”アプリ「UDトーク」賢い使い方を開発者に聞いた (1/5)
- 603 users
- ascii.jp
- テクノロジー
- 2022/05/21
アプリや専用デバイスを使った、日本語の「自動文字起こし」に関連するサービスには、近年多くの関心が集まっている。背景にはスマホやAIを活用する音声認識のテクノロジーが飛躍を遂げたことや、コロナ禍の影響を受けてリモートワークが普及したことなどがある。iPhoneに対応する「UDトーク」も自動文字起こしに対応する注目のアプリだ。開発者に特徴を聞いた。 iPhone/iPadでも使える日本語対応の自動文字起こしアプリコミュニケーション支援・会話の見える化アプリをうたう「UDトーク」は、Shamrock Records（シャムロック・レコード）の代表兼エンジニアである青木秀仁氏が開発を手がけている。モバイル版アプリはiOS/Android/Fire OSの各プラットフォームに対応する。ほかにも音声認識の結果を修正したり、事前に作成した原稿をスマホやタブレットに送信する一部機能を搭載するMac版/
動画の雑音をほぼ消す技術、米国などのチームが開発　声のみが強調されすぎてアフレコみたいな結果に
- 520 users
- www.itmedia.co.jp
- テクノロジー
- 2022/06/15
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。米Dolby LaboratoriesとスペインのUniversitat Pompeu Fabraの研究チームが開発した「Universal Speech Enhancement With Score-based Diffusion」は、収録した映像のバックグラウンドノイズ（背景雑音）を強力に除去する技術だ。動画撮影した雑音を消し去り、話す声だけをくっきり残すことができる。強力すぎるため、映像がアフレコを挿入したみたいな仕上がりになってしまう。実世界で録音した音声には必然的に背景の雑音や残響が含まれ、不快感や明瞭度の妨げになるためノイズ除去が行われる。最近では深層学習の登場によりノイズ除
- 技術
- あとで読む
- 音声
- 研究
- 開発
- 動画
- 機械学習
- ノイズ
- 音響
- technology
年末年始に振り返る 2021年の人工知能10大トレンドと必読論文
- 519 users
- ja.stateofaiguides.com
- テクノロジー
- 2021/12/30
文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK
- 518 users
- gigazine.net
- テクノロジー
- 2023/03/09
会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai」なら、超簡単かつ短時間で高精度な文字起こしを実現できるとのことなので、実際に使ってみました。 writeout.ai – Transcribe and translate any audio file https://writeout.ai/ 上記のリンクからwriteout.aiにアクセスすると、以下のような画面が表示されます。文字起こしを行うには「Transcribes for free」をクリック。すると、GitHubアカウントでのサインインを求められます
- AI
- 文字起こし
- あとで読む
- webサービス
- Whisper
- アプリ
- 音声
- 文章
- 人工知能
- OpenAI
スマートスピーカーって一時期流行ったけど(追記あり)
- 504 users
- anond.hatelabo.jp
- テクノロジー
- 2023/01/09
今も使っている人どれくらいいるんだろう。これ、DSの脳トレから全然進化してないじゃん〜追記〜みんな色々な意見ありがとう。賛否両方読ませてもらってます！恥ずかしい？何が？ちなみに、DSのゲームは「脳を鍛える大人のDSトレーニング」ね。くりぃむしちゅーのANN第96回に出てきた、きいろ！も聞き取ってくれないというエピソードから考えたネタだよ。さすがにスマートスピーカーはそこまで精度悪くない。くりぃむしちゅーのオールナイトニッポンおもしろいからみんな聞いてな！
ほぼリアルタイム！？爆速で動作する日本語特化の文字起こしAI！『kotoba-whisper-v2.0』 - Qiita
- 462 users
- qiita.com/ryosuke_ohori
- テクノロジー
- 2024/11/03
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? みなさんこんにちは！私は株式会社ulusageの、技術ブログ生成AIです！これからなるべく鮮度の高い情報や、ためになるようなTipsを展開していきます。よろしくお願いします！（AIによる自動記事生成を行なっています。システムフローについてなど、この仕組みに興味があれば、要望が一定あり次第、別途記事を書きます！）爆速で動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』を試してみたはじめにビジネスシーンや日常生活で、音声データを文字起こしするニーズはますます高まっています。議事録の作成やインタビューの文字起こ
- AI
- あとで読む
- 文字起こし
- 日本語
- qiita
- 人工知能
- 音声
- 機械学習
- 技術
- 文字
生成AI時代の音声入力ツール：SuperWhisperのすすめ - うみのーと
- 446 users
- umiyosh.hatenablog.com
- テクノロジー
- 2025/02/26
はじめに honeshabri.hatenablog.com 骨しゃぶりさんのブログで音声入力が激推しされていて、自分も普段から音声入力を使っているので、その使い方にとても共感できたし嬉しかったです。普通に音声入力がもっと流行ってほしいなと思います。骨しゃぶりさんのブログ記事に触発されたのもあり、僕も音声入力について記事を書いてみました。この記事では自分のおすすめ音声入力ツールとその活用法を紹介したいと思います。 SuperWhisperのすすめ Whisperという音声認識モデルをご存知の方は多いと思います。これはTransformerベースの音声認識モデルで、OpenAIからOSSとして公開されています。特徴としては従来の音声認識と比べて、聞き間違いや聞き逃しが少なく、ノイズやフィラー（えーと、うーん、あー）を上手に無視してくれて、音声認識の精度が高いというところがあります。よくあ
- AI
- あとで読む
- 音声
- Obsidian
- ツール
- 文章
- tool
- LLM
- 参考
- 音声入力
超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- 445 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://
- AI
- あとで読む
- 日本語
- 音声認識
- 音声
- voice
- 技術
- フリーソフト
- コーパス
- 機械学習
時間無制限、無料の文字起こしアプリを開発したので、アプリ紹介と学びまとめ。｜にょす
- 444 users
- note.com/nyosubro
- テクノロジー
- 2024/10/05
みなさん、こんにちは！9月は久しぶりに個人開発をしてました。今回はGeminiを使って、ちょっと変わった文字起こしアプリを開発したので、その裏側をお話ししていきたいと思います。その名も「無限もじおこし」です！「無限もじおこし」はその名の通り、時間無制限、無料で使える文字起こしアプリです。普通に考えたら「え？大丈夫なの？」って感じですよね笑でも、ちゃんと収益的に成り立つ算段を立てています。この記事ではそこらへんの考えや、アプリ開発における技術的な学びについてまとめていきたいと思います！「無限もじおこし」の紹介主な特徴音声の文字起こしが無制限に可能（10時間でも100時間でも！）使いやすさにこだわった機能（コピー、シェア、自動タイトル生成など）「よく使う単語帳」に登録すると、文字起こしの変換精度アップバックアップ機能があるので、機種変更などが発生しても簡単に引き継げますそして、無
- AI
- あとで読む
- アプリ
- webサービス
- 文字起こし
- 開発
- Gemini
- 無料
- 音声
- プログラミング
Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話
- 416 users
- togetter.com
- テクノロジー
- 2022/01/26
稲田エイジ｜BtoBのWebサイト制作／Web活用支援／コンテンツ支援／HubSpot @inada_h 電話を取ると「Google マップです」と男性から電話。 Google「この電話はGoogle マップの店舗様の営業時間を自動で確認しております」ぼく「はい」 Google「そちらの営業時間を教えてください」ぼく「月曜から金曜の9時〜18時です」 Google「土曜日と日曜日の営業時間も教えてください」 ↓ 2022-01-25 10:26:41 稲田エイジ｜BtoBのWebサイト制作／Web活用支援／コンテンツ支援／HubSpot @inada_h ぼく「土曜と日曜は普通にお休みです」 Google「確認させてください。そちらの営業時間は月曜から金曜の9時〜18時でよろしいでしょうか」ぼく「はい」 Google「ありがとうございました（電話を切りそうな気配）」ぼく「待って。参
- AI
- google
- あとで読む
- 技術
- マーケティング
- 音声認識
- 電話
- togetter
- 人工知能
- technology
文字起こしAIで誰でも無料でYoutubeの字幕ファイルを作る方法 - ニートの言葉
- 393 users
- blog.takuya-andou.com
- テクノロジー
- 2022/10/02
どうもこんにちは、あんどう（@t_andou）です。前回宣言した通りに誰でも簡単にYoutubeの字幕ファイルを作る方法を書きます。「Youtubeの」と書いていますが、実際はどの動画でも対応してます。前回の記事 blog.takuya-andou.com まずはGoogleColabの共有 colab.research.google.com 使い方 GoogleColabに記載していますが 1.GPUを使用するように切り替え上の「ランタイム」→「ランタイムのタイプを変更」からからGPUを選択 2.右上の接続下のセルを実行すると自動的に接続されるので省略可能です 3.動画をアップロードここにドラッグ＆ドロップでアップできます大容量のデータの場合、GoogleDriveと連携した方が効率的です 4.入出力のパスの変更ファイル名に合わせて変更してください 5.全セルを実行あと
- AI
- あとで読む
- youtube
- 文字起こし
- 動画
- ツール
- 言葉
- GPU
- google
- 無料
「録音データを“無料で文字起こし”できるツールを比較してみた」――急遽テレワークを導入した中小企業の顛末記（173）【急遽テレワーク導入！の顛末記】
- 390 users
- internet.watch.impress.co.jp
- テクノロジー
- 2024/01/29
- 文字起こし
- あとで読む
- AI
- ツール
- tool
- webサービス
- データ
- 無料
- 音声認識
- 仕事
「音源分離」の最新手法を解説した、中級者以上向けの実践的な技術書『Pythonで学ぶ音源分離』を8月24日に発売
- 384 users
- prtimes.jp
- テクノロジー
- 2020/08/20
インプレスグループでIT関連メディア事業を展開する株式会社インプレス（本社：東京都千代田区、代表取締役社長：小川亨）は、「音源分離」技術の基礎から実装までを解説した書籍『Pythonで学ぶ音源分離機械学習実践シリーズ』を2020年8月24日（月）に発売いたします。 ■身近なものにも活用される技術「音源分離」の基礎と実装を解説する一冊近年、AIスピーカをはじめとした、人が話した音声を理解する音声認識システムがさまざまな場面で使われています。一般的に音声認識システムは、1人の声を聞き取ることを想定しており、聞きたい声以外の音が入ってきたときには、聞きたい声を正確に聞き取ることが難しくなります。「音源分離」とはこのようにさまざまな音が混ざった中から、欲しい音だけを抽出する技術です。本書では、音源分離の基礎から、Pythonを用いた実装までを詳しく解説しています。 ■音源分離に必要不可欠な数
- python
- あとで読む
- 音源分離
- 技術
- 本
- book
- プログラミング
- 機械学習
- 音響
- 音声
もはや人間と区別がつかない次元に。多言語で歌う機能も搭載したSynthesizer Vの破壊力｜DTMステーション
- 380 users
- www.dtmstation.com
- エンタメ
- 2021/12/23
驚異的に進化したSynthesizer V AI まずは、バックグラウンドや機能、性能といったものを紹介する前に、私がSynthesizer V Pro Studioの1.5.0を使って打ち込んだ、弦巻マキの歌声をちょっと聴いてみてください。いかがですか？従来の歌声合成の概念を覆すレベルに来ていると思いませんか？これは、2年前のコミケでDTMステーションCreativeからリリースしたoyasumiという曲の冒頭部分。そのときは声優の小岩井ことりさんにボーカルをお願いし、囁くように優しく歌ってもらったので、弦巻マキにも、それっぽく歌わせて仕上げてみたのです。本来、弦巻マキは「アニメキャラっぽい雰囲気の元気な女の子」というイメージの歌声ですが、そことはだいぶ違ったニュアンスの歌声になっているのも感じられたと思います。「自動処理」メニューにある「自動ピッチ調整（カスタマイズ）」を選択する
- DTM
- あとで読む
- 音楽
- AI
- vocaloid
- 音声合成
- music
- ボカロ
- tech
- SynthesizerV
iPhone・Androidで高速に日本語音声入力するためのベストプラクティス
- 357 users
- stocker.jp
- テクノロジー
- 2021/12/13
先日Twitterで「大学生がスマートフォンでレポートを書いている」というツイートが話題になっており、それに対して反応している方達もほぼ全員が「スマートフォンでレポートを書くのは効率が悪い」という前提で話をしていることに大変違和感を覚えました。なぜなら私はこのブログはもちろん、技術書を執筆するときでさえ主にスマートフォンで下書きをしているからです。 PCを使うのは、ほぼスクリーンショットの撮影と最後の仕上げだけです。その方が、最初からPCで文字入力するのに比べて圧倒的に効率が良いです。この記事では、iPhoneとAndroidそれぞれで音声入力を効率よくおこなう方法について解説します。 iPhone・iPadの場合先に結論から申し上げると、iPhone・iPad・Macの日本語音声入力は、AndroidのGoogle音声入力に比べて認識精度が低く、認識できる単語が少ないです。仕事
OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
- 331 users
- gigazine.net
- テクノロジー
- 2022/09/22
画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン
超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
- 320 users
- gigazine.net
- テクノロジー
- 2023/01/20
東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R
- AI
- あとで読む
- 音声認識
- webサービス
- voice
- Python
- GIGAZINE
- 人工知能
- techfeed
- 音声
Microsoftの音声アシスタント「Cortana」、2021年にフェードアウト　縮小のロードマップ公開
- 296 users
- www.itmedia.co.jp
- テクノロジー
- 2020/08/03
米Microsoftの音声アシスタント「Cortana」の消費者向けアプリおよびサービスの多くが2021年に終了する。Microsoftは8月1日（米国時間）、「Upcoming changes to Cortana」と題したサポートページでCortanaフェードアウトのロードマップを提示した。同社はCortanaをOfficeやクラウドサービスなどを含むサブスクリプションサービス「Microsoft 365」のためのAIベースデジタルアシスタント体験として再定義することを理由に、Cortanaサードパーティースキルのサポートを9月7日で終了。21年初めにはiOSおよびAndroid向けCortanaアプリのサポートを終了する。
爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は？／実際にローカルで実行してOpenAIの「Whisper」と比較してみた【レビュー】
- 294 users
- forest.watch.impress.co.jp
- テクノロジー
- 2024/11/01
- AI
- あとで読む
- 文字起こし
- 日本語
- 人工知能
- 音声認識
- 生成AI
- voice
【iOS14】ドアベルなどの音をiPhoneが聞き取って通知する「サウンド認識」 - iPhone Mania
- 272 users
- iphone-mania.jp
- テクノロジー
- 2021/03/27
イヤホン・ヘッドホンで音楽を聴いていたら、家のチャイムが鳴っているのに気づかなかった。何かいい解決策はないの？ iOS14 / iPadOS14から「サウンド認識」機能が追加されました。元々は「アクセシビリティ」に分類されている、聴覚サポート機能の一つです。しかし、iPhoneが聞き取った音を通知してくれる機能は、日常生活で便利に活用することができます。例えば、イヤホンやヘッドホンで音楽を聴いていると、外部の音を認識しづらくなります。そのため、ドアのチャイムが聴こえなくて応対できない場合があります。「ドアベル」の音を通知するように設定すれば、チャイムの音が聞こえなくて宅配便の荷物を受け取れなかった、といったことを防ぐことができます。「ドアベル」の他にも「水の出しっ放し」などの認識可能な音があるので、お好みで設定することをおすすめします。
- iOS
- iphone
- あとで読む
- サウンド
- 技術
音声だけで完全な長文が書ける技術、東大教授が開発　ささやき声で“改行”や“修正”などコマンドを入力
- 272 users
- www.itmedia.co.jp
- テクノロジー
- 2022/05/25
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。ソニーコンピュータサイエンス研究所（CSL）フェロー・副所長であり東京大学大学院情報学環の暦本純一教授が開発した「DualVoice: A Speech Interaction Method Using Whisper-Voice as Commands」は、キーボードやマウスなどを使用せず、音声入力だけで長い文章が書ける技術だ。文字入力以外のコマンド入力と音声認識ミスによる修正は、通常の声とは別に「ささやき声」で操作する。通常の声とささやき声を使い分ける方法で、ハンズフリーの完全な音声入力を実現する。音声による文字入力はタイピングに比べて格段に速いため、アイデアを書き留めたり、原稿を素
- 技術
- あとで読む
- 音声
- AI
- technology
- キーボード
- 入力
- テクノロジー
- deeplearning
- writing
PCで再生中の音声をWhisperでリアルタイムに文字起こしする - TadaoYamaokaの開発日記
- 271 users
- tadaoyamaoka.hatenablog.com
- テクノロジー
- 2022/10/16
PCで再生中の音声をリアルタイムで文字起こしできると、字幕機能がない動画の再生や、外国とのオンライン会議で便利である。先日、OpenAIが公開したWhisperは、音声ファイルから文字起こしするするツールが提供されているが、リアルタイムで処理するツールは提供されていない。そこで、Pythonスクリプトで、リアルタイムで文字起こしするツールを作成した。ループバック録音 SoundCardを使うと、PCで再生されている音声を録音することができる。 pip install SoundCardでインストールする。 import soundcard as sc with sc.get_microphone(id=str(sc.default_speaker().name), include_loopback=True).recorder(samplerate=SAMPLE_RATE, chan
- python
- あとで読む
- 文字起こし
- AI
- whisper
- PC
- プログラミング
- 音声
- 技術
- 音声認識
ChatGPTのアプリ版すごくね！？
- 268 users
- anond.hatelabo.jp
- テクノロジー
- 2023/11/22
モバイルアプリ版に実装されてる音声入出力機能が無課金ユーザーにも開放されたってニュースを見て貧乏人の俺は早速ダウンロードしたわけね。英会話の練習に使えるみたいなニュースを見てたから興味津々でトライしたわけよ。そしたらまあ俺の英語力では話すのも聞き取るのもままならず、到底使いこなせる”域”に達してねえなこりゃ、と早々に自分に失望したよ。はあ、アンインスコするか・・・と思いながら設定ちょろちょろ弄ってたら「Speach」の欄にMain Languageって項目があって、そこがAuto-Detect（自動検出）になってたんよね。あっこれのせいか！俺の英語力が悪いからじゃなかったんだと思って、Englishに切り替えてもう一回やってみたわけ。そしたら案の定結果は変わらずさらに落ち込んだ。で、もうどうでもいいやと思いながら日本語で適当に話しかけたんだよ。そしたら！なぜか俺が日本語で話
- ChatGPT
- あとで読む
- AI
- 英語
- 増田
- アプリ
- 言語
- 人工知能
- 翻訳
- 日本語
「無料でも結構スゴい!! 文字起こしAIに録画したWeb会議のテキスト化をさせてみた！」――急遽テレワークを導入した中小企業の顛末記（118）【急遽テレワーク導入！の顛末記】
- 267 users
- internet.watch.impress.co.jp
- テクノロジー
- 2022/11/07
- AI
- あとで読む
- 文字起こし
- 無料
- テキスト
- python
- 人工知能
- OpenAI
- 技術
- GPU
不要な音は消去して必要な音だけ聞ける“聴力自在化”技術　北大と神大が開発
- 254 users
- www.itmedia.co.jp
- テクノロジー
- 2020/08/05
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。北海道大学と神戸大学による研究チームが発表した「ウェアラブルコンピューティングにおける聴力自在化技術の提案」（PDFへのリンク）は、外界音を変換し、ユーザーが自在に自身の聴力を操作する技術だ。この技術を用いることで、外界音から聞きたい音だけを選択して聞くことができる。人間の耳は、自らの意志では制御することが難しく、聞く音の取捨選択ができない。その上、超音波などの人間には聞こえない音も取得することができない。研究チームは、マイクとスピーカーを搭載したイヤフォン型ウェアラブルデバイス（マイク付きワイヤレスイヤフォン）での利用を想定し、外界音から聞きたい音だけを聞ける技術でこの課題に挑戦する
- 技術
- 研究
- あとで読む
- 科学
- 開発
- テクノロジー
- technology
- 拡張感覚
- 音
- これはすごい
YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃　音声アシスタント機能を悪用
- 238 users
- www.itmedia.co.jp
- テクノロジー
- 2023/03/29
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: ＠shiropen2 米テキサス大学サンアントニオ校と米コロラド大学コロラドスプリングス校に所属する研究者らが発表した論文「Near-Ultrasound Inaudible Trojan（NUIT）: Exploit Your Speaker to Attack Your Microphone」は、スマートフォンやスマートスピーカーの音声アシスタント（Siri、Google Assistant、Alexa、Cortana）に対する不可聴攻撃を提案した研究報告である。その手口は、インターネット（動画や音楽、Web会議など）を通じて、人間には聞こえない音を流し、リモートでス
アレクサを好きな声に変更可能へ、アマゾンが計画発表
- 228 users
- jp.reuters.com
- テクノロジー
- 2022/06/23
米アマゾン・ドット・コムは２２日、音声アシスタント機能「アレクサ」について、人工知能（ＡＩ）の音声を自分の好きな声に変更できるようにする計画を明らかにした。昨年１０月撮影（２０２２年　ロイター/MIKE BLAKE）［ラスベガス　２２日　ロイター］ - 米アマゾン・ドット・コムは２２日、音声アシスタント機能「アレクサ」について、人工知能（ＡＩ）の音声を自分の好きな声に変更できるようにする計画を明らかにした。
- 音声合成
- Alexa
- 技術
- ガジェット
- amazon
- あとで読む
- 家電
文字起こしアプリで伝言ゲーム
- 227 users
- dailyportalz.jp
- おもしろ
- 2024/01/25
1971年東京生まれ。デイリーポータルZウェブマスター。主にインターネットと世田谷区で活動。編著書は「死ぬかと思った」（アスペクト）など。イカの沖漬けが世界一うまい食べものだと思ってる。（動画インタビュー）前の記事：影だけ悪魔の人になりたい＞個人サイト webやぎの目ルール肉声で喋る→アプリで文字起こし→その結果をiPhoneで読み上げ→ 別のアプリで文字起こし → また読みあげ → またまた別のアプリで文字起こし …を繰り返す。そうして文章がずれていくさまを楽しもう。
ChatGPT APIとWhisper APIで議事録文字起こしアプリを作り、Hugging Face Spacesで公開する | gihyo.jp
- 218 users
- gihyo.jp
- テクノロジー
- 2023/04/06
ChatGPT APIの使い方実際にChatGPT APIを使ってみましょう。 openai-pythonのインストール今回はOpenAIのPython用ライブラリであるopenai-pythonを使います。pipを用いて、openai-pythonをインストールしましょう。 pip install openai APIリクエスト ChatCompletion.createで対話を生成できます。たとえば、以下のようなコードになります。 import openai openai.api_key = "sk-..." # APIキー completion = openai.ChatCompletion.create( model="gpt-3.5-turbo", messages=[{"role": "user", "content": "こんにちは！"}] ) print(complet
- ChatGPT
- Whisper
- あとで読む
- AI
- API
- Python
- OpenAI
- アプリ
- プログラミング
- Hugging Face
“スマホのマイクでこっそり盗聴”を妨害する技術　静かな音で会話内容を改ざん
- 217 users
- www.itmedia.co.jp
- テクノロジー
- 2022/05/17
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。米コロンビア大学の研究チームが発表した「Real-Time Neural Voice Camouflage」は、不正なマイクが取得したユーザーの会話の言葉を正しく聞き取れないようにする攻撃を提案した論文だ。無線で妨害音を発し、自動音声認識（ASR）システムをリアルタイムに混乱させ、本来盗聴側が取得したい会話を間違った形で認識させる。80％の確率でユーザーの言葉を誤認識させられたという。この妨害音は、その場にいるユーザーの邪魔にならないような静かな音に最適化されている。妨害を実際に行った3つの例。攻撃していない時の音声信号スペクトログラム（上）、攻撃した際の音声信号スペクトログラム（下）
ディープラーニングの力で誰でもゆかりさんの声になれる声変換技術を作ってみた
- 213 users
- blog.hiroshiba.jp
- テクノロジー
- 2020/12/28
2年ほど前に、自分の声を結月ゆかりにする声質変換技術を作り、動画を投稿しました。この技術には利用者の音声データが大量に必要であるという欠点があり、ゆかりさんになりたいというみなさんの願いを叶えるのが難しい状態でした。そこで、この技術を利用者の音声データが不要になるように改良し、誰でも簡単に使えるようにしました。ここではその技術について解説します。手法　音声を直接変換しようとすると、利用者の音声データが必要になってしまいます。そこで、音声を直接変換するのをやめて、①音声を構成する要素である音素と音高に分解し、②音素と音高を目標の声（ゆかりさん）に再合成することを考えました。 ①は、音素の抽出に音声認識とOpenJTalkとJuliusを、音高の抽出にWORLDを用いれば簡単に実現できます。そのため、②さえ実現できれば、利用者の声のデータを用意することなく、誰でもゆかりさんの声に変換すること
WindowsのPythonでデスクトップ通知(トースト)作ってみた【WinRT】 - Qiita
- 210 users
- qiita.com/relu
- テクノロジー
- 2022/08/10
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
- python
- windows
- あとで読む
- プログラミング
- Qiita
- 通知
- techfeed
音声文字起こしサービス徹底検証　ベストな選択はこれだ！
- 201 users
- xtrend.nikkei.com
- テクノロジー
- 2021/05/11
話した言葉をテキストデータに変換できる「音声文字起こしサービス」。テレワーク時代の情報共有ツールとして大いに役立つものの、気になるのはその実用性だ。発言の認識精度に加え、大まかな流れや会話の文脈を後から振り返るのに使えるのかどうか。主要な7つのサービスを使用し、比較した。 ※日経トレンディ2021年5月号の記事を再構成ディープラーニングやビッグデータの活用が進み、音声認識の精度が大きく向上。話した言葉をテキストデータに変換できる「音声文字起こしサービス」が相次いで登場している。会議の内容を振り返ったり、他の人にシェアしたりなど、テレワーク時代の情報共有ツールとして注目されているこれらのサービスは、どこまで実用的なのか。主要な7つのサービスを実際に使い、比較してみた。
- 文字起こし
- あとで読む
- webサービス
- サービス
- web
- ICT
- データ
- service
「Google Meet」に高精度なリアルタイム文字起こし機能やチャット履歴ダウンロード機能を追加／Chrome拡張「こえもじ」は議事録作成を格段に効率化。おまけの「ニコ動」風字幕機能も【レビュー】
- 191 users
- forest.watch.impress.co.jp
- テクノロジー
- 2021/09/08