タイトル「音声認識」を検索 - はてなブックマーク

1 - 40 件 / 3678件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

音声認識の検索結果1 - 40 件 / 3678件

【iOS 5】できることがこんなに！ iPhoneの音声認識「Siri」でできる事の一覧 - 拡張現実ライフ
- 753 users
- akio0911.net
- テクノロジー
- 2012/03/09
記事内に広告を含む場合があります。記事内で紹介する商品を購入することで、当サイトに売り上げの一部が還元されることがあります。 Photo by planetc1 こんばんは、@akio0911です。個別銘柄のPERや時価総額を聞けたり、すべてのアラームを一言で削除したりできる日本語版Siriで使えるコマンドを調べて一覧にまとめてみました。関連 : 個別銘柄のPERや時価総額も聞ける！ iPhoneの音声認識「Siri」で株価を調べてみた関連 : Siriを使って、すべてのアラームを削除する方法追記（2015/09/18） iOS 9版を書きました！ ⇒ 【使い方】iOS 9のSiriで出来る事268個をまとめてみた【使い方】iOS 9のSiriで出来る事268個をまとめてみた連絡先連絡先の情報を調べる斉藤君の住所は？江川さんの電話番号を教えて妻の誕生日はいつ？恵美ちゃ
- Siri
- iPhone
- iPhone
- iOS
- まとめ
- iOS5
- tips
- Apple
- 設定
- コマンド
MIT、“頭の中でしゃべる”だけで音声認識できるシステム「AlterEgo」
- 638 users
- pc.watch.impress.co.jp
- テクノロジー
- 2018/04/09
- 技術
- technology
- あとで読む
- これはすごい
- MIT
- 開発
- SF
- 音声認識
- tech
- すごい
大語彙連続音声認識システムJulius
- 512 users
- julius.osdn.jp
- 学び
- 2005/02/20
A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Amazonの音声認識「Alexa」は世界のIoTを席巻し「スマートフォンの次」のプラットフォームの覇者となりつつある
- 458 users
- gigazine.net
- テクノロジー
- 2017/01/17
Amazonが販売するスピーカー型の音声アシスタント端末「Amazon Echo」は、Amazonのハードウェア史上最大のヒット作になりました。しかし、本当の大ヒットはEchoではなくその中身である音声認識機能「Alexa」によってこれからもたらされるのであって、Alexaを武器に「スマートフォンの次」のプラットフォームをAmazonが手中に収めつつあるという指摘があります。 Alexa: Amazon’s Operating System – Stratechery by Ben Thompson https://stratechery.com/2017/amazons-operating-system/ Voice Is the Next Big Platform, and Alexa Will Own It https://backchannel.com/voice-is-the-n
- amazon
- Alexa
- IoT
- あとで読む
- 音声認識
- webサービス
- ビジネス
- AI
- IT
- 技術
自宅IoTのため家にある電子機器をRaspberry Pi+Homebridge使ってSiriの音声認識で繋ぎまくってみた - karaage. [からあげ]
- 446 users
- karaage.hatenadiary.jp
- テクノロジー
- 2017/03/02
2017/09/05 参考サイト追加 2017/03/05 homebridgeを自動起動させる方法に関して追記・参考サイトの追加自宅IoTに挑戦引越しを機に家庭内IoTに挑戦しようと思い立ちました。なんせ自宅IoT友の会の部員ですからね！というわけで、「家庭内IoT」とか「おうちハック」と名前が付く記事を見かけるとひたすらブクマし続ける日々を過ごしていました。いい加減、これだけ集めれば十分だろと思いやってみたら、案の定色々ハマってしまったところや、自分なりに気づくところがあったので一度まとめて記事にしてみます。今回、参考にしたサイトとか参考にしなかったサイトに関しては、本記事の一番最後にまとめています。家庭内IoTをしてできたことまずは、どんなことができるようになったかを紹介しようと思います。暗くて、エアコンのついていない寒い書斎ここで、例えばぬくぬくしたお布団の中で、i
- Raspberry Pi
- IoT
- あとで読む
- 学習リモコン
- siri
- おうちハック
- iPhone
- IT
- 家電
- RaspberryPi
超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- 445 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://
- AI
- あとで読む
- 日本語
- 音声認識
- 音声
- voice
- 技術
- フリーソフト
- コーパス
- 機械学習
Googleマップから電話があり普通に応対したところ、最後の最後で自動電話と分かり、音声認識の進歩に驚いた話
- 416 users
- togetter.com
- テクノロジー
- 2022/01/26
稲田エイジ｜BtoBのWebサイト制作／Web活用支援／コンテンツ支援／HubSpot @inada_h 電話を取ると「Google マップです」と男性から電話。 Google「この電話はGoogle マップの店舗様の営業時間を自動で確認しております」ぼく「はい」 Google「そちらの営業時間を教えてください」ぼく「月曜から金曜の9時〜18時です」 Google「土曜日と日曜日の営業時間も教えてください」 ↓ 稲田エイジ｜BtoBのWebサイト制作／Web活用支援／コンテンツ支援／HubSpot @inada_h ぼく「土曜と日曜は普通にお休みです」 Google「確認させてください。そちらの営業時間は月曜から金曜の9時〜18時でよろしいでしょうか」ぼく「はい」 Google「ありがとうございました（電話を切りそうな気配）」ぼく「待って。参考までに教えてください。Googleが個
- AI
- google
- あとで読む
- 技術
- マーケティング
- 音声認識
- 電話
- togetter
- 人工知能
- technology
超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
- 320 users
- gigazine.net
- テクノロジー
- 2023/01/20
東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R
- AI
- あとで読む
- 音声認識
- webサービス
- voice
- Python
- GIGAZINE
- 人工知能
- techfeed
- 音声
培養したヒトの脳組織を使ってコンピューターを構築することに成功、日本語の音声認識にも対応
- 179 users
- gigazine.net
- テクノロジー
- 2023/12/12
人間の幹細胞を基に作られた脳オルガノイド(ミニ脳)を電子チップに接続した「ブレイノウェア」と呼ばれるセットアップを構築して、簡単な計算タスクを実行することに成功したことが、インディアナ大学ブルーミントン校のエンジニアであるフェン・グオ氏らの研究チームによって報告されました。 Brain organoid reservoir computing for artificial intelligence | Nature Electronics https://www.nature.com/articles/s41928-023-01069-w Scientists Built a Functional Computer With Human Brain Tissue : ScienceAlert https://www.sciencealert.com/scientists-built-a-f
- 脳
- 研究
- AI
- あとで読む
- 人工知能
- 科学
- science
- technology
- 技術
- computer
iPhone 4Sの音声認識秘書Siri君に外で用事を言いつけてみる→想像以上にスゴかった（動画）
- 163 users
- www.gizmodo.jp
- 暮らし
- 2011/10/12
iPhone 4Sの音声認識秘書Siri君に外で用事を言いつけてみる→想像以上にスゴかった（動画）2011.10.12 12:00 satomi あーこれはみんな騒ぐの無理ないな... アップルのデモで見たiPhone 4S新搭載のスマートアシスタント機能｢Siri｣も神でしたけど、このStuff.tvが外で実際使って撮ったハンズオン見ると、あの神業がデモだけじゃないことがよーくわかります。ロンドンのコヴェントガーデンのアップルストアで撮った映像ですかね？後ろの雑音けっこうありますね。NYの地下鉄ほどじゃないけど。でもこのうるさい中でも、ちゃんと話し掛ける通りに反応してます。叫んだりしなくても普通の声でOKみたいですね。 -動画の内容- サイト検索 Siri：ご用件はなんですか？利用者：Stuff.tvというサイトに行ってくれ Siri：（ピピッ）Stuff.tv検索中（検索結果が出
- Siri
- iPhone
- apple
- これはすごい
- 動画
- **これはすごい
- 技術
Node.js で簡単に音声認識できるモジュールを作ってみた #nodefest - 凹みTips
- 142 users
- tips.hecomi.com
- テクノロジー
- 2012/11/07
はじめにこの記事は東京Node学園祭2012 アドベントカレンダーの 23 日目の記事です。現在、オープンソースの大語彙連続音声認識エンジン Julius を利用して音声による家電操作を行なっているのですが、どんな言葉を認識させるかの文法をゴリゴリ書いたり、コールバックの処理を C++ でゴリゴリ書くのが大変だったので、これらを簡単に実現してくれる Node.js のモジュールをつくってみました。 WEB 関連の話題で扱われることの多い Node.js ですが、C++ でネイティブモジュールを作成することによる Node.js の可能性を感じてもらえれば、と思います。出来るようになること以下のように音声認識させる言葉を登録、その文言を Julius が解釈できる形式にコンパイルして、Julius インスタンスを生成、スタートするだけで音声認識が可能になります。 var Julius
- node.js
- 音声認識
- Julius
- javascript
- c++
- node
- js
- *プログラム
- あとでみる
クラウドの音声認識APIで、ライターにとって実用的な「文字起こしサービス」は作れるのか？
- 134 users
- www.publickey1.jp
- テクノロジー
- 2017/09/27
文章を書く仕事をしている多くのライターが苦手にしている作業のひとつに、かつて「テープ起こし」と呼ばれ、いまは「文字起こし」と呼ばれるものがあります。これは取材やインタビューを行う際に録音したものを聞き返して、逐一正確に文字にしていく作業なのですが、とにかく単調で集中力が必要です。僕はこの作業が苦手ですぐ集中力が切れてしまうので、たとえば60分のインタビューの文字起こしをしようとすると、だいたいその3倍以上の時間がかかることを覚悟しなければなりません。ある日、たまたま後輩と一緒にインタビューの仕事をしているときに、後輩が僕にこう言いました「新野さん、もし文字起こしを自動でやってくれるソフトがあったら僕は100万円出してもいいですよ」と。まったく同感でした。この先ずっと、必要な時にいつでも機械がその場で自動的に文字起こしをしてくれるのなら、100万円ぐらい払ってもいい（僕もたまにクラウド
- 音声認識
- API
- 文字起こし
- Alexa
- machinelearning
- Publickey
- 仕事
- あとで読む
- サービス
- google
音声認識ソフトを使ってキーボードより速くプログラムをコーディングする実例
- 133 users
- gigazine.net
- テクノロジー
- 2013/08/16
By Gray 音声認識で文字入力する技術は古くからありますが、まだまだ実用にはほど遠いという印象を持っている場合の方が多いはず。しかし、音声認識入力でキーボードよりも速くプログラミングすることは可能であることが判明しました。 Using Voice to Code Faster than Keyboard http://ergoemacs.org/emacs/using_voice_to_code.html このムービーはプログラミング言語「Python」の世界会議Python Conference 2013におけるプレゼンテーションで撮影されたもので、キーボードによるタイピングよりも速く音声認識入力によりプログラムがコーディングされていく様子がよく分かります。 Using Python to Code by Voice - YouTube 音声入力によるプログラムコーディングの様子をプ
OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
- 123 users
- dev.classmethod.jp
- テクノロジー
- 2022/09/23
こんちには。データアナリティクス事業本部機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。個人的には、いくら認識が凄いって言っても、実際日本語は微妙なんじゃないかな…？と思っていたのですが… ですが… … … … おお！？(上記はGitHubにあるWER: Word Error Rateのグラフです) これは！？これは結構良さげな数値を出している！？(たぶん) ってことで元音声屋さんとしては、これは試すしかない！ということで動かしてみました！(投稿は翌日になってしまいましたが…) なお、本記事では論文内容の詳細などには触れませんのでご了承ください。(後日できたらがんばります) いますぐ使いたい人向け今すぐ使いたい方は、Hugging Faceでブラウザから書き起こしを試
- 音声認識
- AI
- whisper
- あとで読む
- 機械学習
- OpenAI
- python
- 音声
- api
無料なのにココまでできる！音声認識アプリを使ったテキストおこし（基本編） | ライフハッカー・ジャパン
- 122 users
- www.lifehacker.jp
- 暮らし
- 2011/07/18
OCR系アプリや『Evernote』のようなサービスを使って、手書き入力をテキスト化するのはそこそこできるようになってきたけれど、音声はまだまだ実用的ではない...と思っているアナタ。実は、音声認識でもけっこう使えるレベルのアプリがすでにあるんです。しかも無料で。その名も『Dragon Dictation』といって、日本ではドラゴンスピーチという製品で知られる、音声認識技術の老舗メーカーの技術が使われています。Googleの音声検索同様、サーバーのデータを使って解析・変換を行っているので、利用にはネットにつながっている必要がありますが、最初に自分の声を登録したり使い方を考える必要がなく、ボタンをタップしてしゃべるだけで、さくさくテキスト化してくれます。コツはややゆっくりと、キーボードを入力する時に頭で考えていることを口にするようなスピードでしゃべること。できれば、iPhone付属のイヤ
- 音声認識
- iphone
- アプリ
- iPhone
- スマートフォン
- iphoneアプリ
- ocr
- app
- あとでみる
- RSS
フリーの iOS 向け音声認識／音声合成ライブラリ『OpenEars』の使い方 - その後のその後
- 115 users
- shu223.hatenablog.com
- テクノロジー
- 2013/08/10
OpenEars は Politepix 社より提供されているフリーの iOS 向け音声認識／音声合成（Text to Speech, TTS）ライブラリです。 OpenEars 話した言葉を認識したり、入力した文字列を読み上げたり（mac の say コマンドみたいなもの）することができます。試してみたところ超簡単に使えたので、自分のアプリに OpenEars を導入する方法を紹介します。音声合成の導入方法フレームワーク追加、ヘッダインポートといった一般的なライブラリの導入手順をのぞけば、基本的にはメソッドを1つ呼ぶだけで導入できます。 1. フレームワークをプロジェクトに追加解凍したフォルダ配下にあるFrameworkフォルダごとプロジェクトに追加します。フォルダには OpenEars.framework、Slt.framework ほか、言語モデルや辞書が入っています。また
- iOS
- 音声認識
- Objective-C
- 音声合成
- library
- iphone
- 開発
- フレームワーク
- framework
- ライブラリ
Amazon EchoをRaspberry Piのワイヤレス音声認識マイク＆スピーカとしてミクさんの声で喋らせたり家電制御（リモコン制御）する方法 - karaage. [からあげ]
- 113 users
- karaage.hatenadiary.jp
- テクノロジー
- 2018/03/05
Amazon EchoをRaspberry Piのワイヤレス音声認識マイク・スピーカとして使いたい我が家では、Amazon Echoを壁掛け設置して色々便利に活用しています。ただ、そんな中。妻から色々不満の声が上がってきました。具体的には以下です。リマインダでいちいち2回言うのが気にくわない。1回で良い音声認識で家電（テレビ・リモコン・ルンバ）の制御がしたいからあげDashボタンの音声認識率が悪くてつかえないここまできたら、Amazon Echo単体では、如何ともしがたいですね。そんなときの強い味方が我らがRaspberry Piです。要はAmazon EchoをRaspberry Piのワイヤレス音声認識マイク＆スピーカと使うことができれば何でもできます（ラズパイ脳なのでRaspberry Piなら何でもできると信じている）。というわけで、今回は色々ネット情報調べて試行錯誤
Google Document の音声認識入力が思ってたよりすごかった - mizchi's blog
- 110 users
- mizchi.hatenablog.com
- テクノロジー
- 2017/09/04
はいえーとあの google の音声入力のテストをやってみてるんですけどこれめっちゃすごいですねなんかここまで認識精度良いと思わなかったあの文字の改行とかそこだけちょっと自分でやんないといけないんですけどそれ以外は全然不満がないですねこれなにかコマンドとかあるのかなやそうでもないか何がやりたいかというと discord でちょっと仕事で使ってみたくてボイスチャットチャンネルに没頭*1参加させて録音させてそのデータを google のドキュメントとして音声で食わせて文字起こしさせればあの会議とかねリモートワークとかですごい便利なんじゃないかなと思って文字認識 api ってちょっと公開されてるかわかんないんだけどこういう api って google あんまりね有料 api 脱退後悔*2しきれなかったりっていうイメージあるんだよねまあ google ドキュメントを使わせるためのインセンティブやっ
- 音声認識
- google
- 文字起こし
- Mizchi
- API
- 音声
- あとで読む
- voice
- document
- 仕事
Pythonで音声認識モデルWhisperを使って文字起こし | gihyo.jp
- 108 users
- gihyo.jp
- テクノロジー
- 2024/12/25
表の引用元：Available models and languages: openai/whisper -github.com Whisperを使ってみる Whisperは、MITライセンスのOSS版とAPI版の利用が可能です。それぞれを利用する方法を見ていきます。以下は筆者の動作環境になります。 M2 MacBook macOS Sonoma 14.7 メモリ 16GB Python 3.11.5 [1] OSS版 OSS版のWhisperを利用するには、pipでインストールします。また、動画と音声を記録・変換・再生するためのコマンドラインツールFFmpegが別途必要です。FFmpegはほとんどのパッケージマネージャーから入手できますので、ご自身の環境にあった方法でインストールしてください。 Whisperでは音声データの読み取りにFFmpegを使用しているため、FFmpegが対応し
- python
- OpenAI
- AI
- あとで読む
- ChatGPT
- API
- OSS
［速報］「Amazon AI」として、画像認識／テキスト音声変換／音声認識と自然言語理解の3つを発表。AWS re:Invent 2016
- 107 users
- www.publickey1.jp
- テクノロジー
- 2016/12/01
Amazon Web Servicesは、ラスベガスで開幕した同社のイベント「AWS re:Invent 2016」で、「Amazon AI」傘下のサービスとして、画像認識、テキスト音声変換、音声認識と自然言語理解の3つを発表しました。
サムスン製テレビが会話に聞き耳？　音声認識機能に注意喚起
- 104 users
- www.cnn.co.jp
- テクノロジー
- 2015/02/10
ニューヨーク（ＣＮＮＭｏｎｅｙ）サムスン製テレビの前では発言に気を付けた方がいい。テレビの前で話した言葉はすべて傍受され、インターネットを介して送信されている――。音声でテレビを操作できる「スマートＴＶ」について、韓国サムスン電子がそんな内容の告知を掲載した。この告知は同社のスマートＴＶのプライバシーポリシーに掲載された。「私的な会話や重要な情報を含め、言葉を発すればその情報がデータとして傍受され、音声認識機能を通じて第三者に送信されますのでご注意ください」と呼びかける内容。サムスンによれば、テレビを音声で操作するためには、発話内容を第三者に送信して音声を文字に変換する必要がある。同社はさらに、この機能を改善する必要があるかどうか見極めるための調査目的でも音声内容を収集しているという。第三者の社名や、その会社が音声データを録音しているかどうかについて、サムスンから返答はなかった。
- 家電
- privacy
- サムスン
- security
- プライバシー
- テレビ
- TV
- セキュリティ
- Samsung
- CNN
音声認識入門！Web Speech APIを使いChromeブラウザを音声操作するWebアプリ開発術を公開！ - paiza times
- 104 users
- paiza.hatenablog.com
- テクノロジー
- 2016/07/05
どうも、まさとらん（@0310lan）です。みなさんは、音声認識を活用していますか？例えば、iOSの「Siri」と会話してみたり、Androidなら「OK Google」と喋って検索した経験があるのではないでしょうか？今回は、このような音声認識を利用し、PCのChromeブラウザに喋りかけることで動作するサンプルデモのチュートリアルをご紹介しようと思います！ ■音声認識に必要なAPIとは？まず最初に必要なのが、自分の「声」を音声として認識してくれるAPIなのですが、実はPCのChromeブラウザであれば今すぐJavaScriptから利用できるようになっています。 Web Speech API：ブラウザ対応状況「Web Speech API」を使うことで、特別なツールをインストールしたり、余計なライブラリを読み込む必要は無いわけです。ちなみに、このAPIには大きく分けて「音声認識
- 音声認識
- API
- javascript
- chrome
- プログラミング
- google
- 機械学習
- HTML5
- あとで読む
音声認識のしくみ
- 104 users
- recognition.web.fc2.com
- おもしろ
- 2006/01/30
音声認識を紹介するページとにかくここでは、だらだらと「音声認識」というモノを紹介します。全体が（ほぼ）このページ一枚に収まっています。ところどころにリンクがありますが、そのリンク先には、難しい話やこぼれ話みたいなものがちょこちょことあります。ところで、話を簡単にするために、ちょっと嘘を混ぜています。そうでないと、ものすごく複雑な話になるので。音声認識ってなにさ簡単に言ってしまえば、人間が喋った声を機械が文字に直すことです。図で描くとこんな感じです。左側が音声波形（つまり、声を図に表している）で、右側がそれをひらがなに直したものです。左側の音声波形を少し詳しく見てみる人間は耳で音を聞きますが、機械はマイクで音を聞きます。そして、マイクで収録された音をそのまま表示させると、下のような感じになります。横軸が時刻で、縦軸が振幅です。音声というのは、ようす
- 音声認識
- 研究
- SpeechRecognition
- algorithm
- 音声
- 資料
- technology
- speech
- まとめ
［速報］「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開
- 103 users
- www.publickey1.jp
- テクノロジー
- 2022/11/10
［速報］「Hey, GitHub! 」、GitHubが音声認識による操作とコーディングを可能にする実験的機能をプレビュー公開 GitHubは、年次イベント「GitHub Universe 2022」の基調講演で、音声によるGitHubの操作やコーディングを可能にする実験的機能「Hey, GitHub!」をプレビュー公開しました。 'Hey, GitHub!' is an experiment from the GitHub Next team that aims to reduce the need for a keyboard by enabling voice-based interaction with GitHub Copilot. Sign up now to join the waitlist: https://t.co/4YOSuA6cUr — GitHub (@github
無料でOpenAIの「Whisper」を使って録音ファイルから音声認識で文字おこしする方法まとめ
- 103 users
- gigazine.net
- テクノロジー
- 2022/09/29
画像生成AI「DALL・E2」や文章生成AI「GPT-3」「InstructGPT」などを開発するAI研究団体のOpenAIが、2022年9月に高性能な文字起こしAI「Whisper」を発表しました。オープンソースのWhisperはリポジトリが一般公開されており、日本語にも対応しているとのことで、オンライン実行環境のGoogle Colaboratory(Google Colab)やローカルのWindows環境に導入して使ってみました。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper ○目次 ◆Hugging Faceの体験版を使ってみる ◆Google Colabに導入して使ってみる ◆Windows環境に導入してみ
- AI
- 音声
- whisper
- 機械学習
- 文字
- 文章
- 人工知能
Haskellで作る超コンパクト音声認識システム
- 101 users
- www.furui.cs.titech.ac.jp/~shinot
- 暮らし
- 2011/04/27
音声認識は人工知能の分野の中でも独自の進化をとげた分野で，良くも悪くもガラパゴス的と言われたりします．特に大語彙連続音声認識を実現する既存のソフトウエアは大規模かつ複雑で，音声認識の専門家でさえも全体を理解して改良を加えることは必ずしも容易ではありません．このことは近隣分野と音声認識コミュニティを分断する障壁ともなっています．しかし音声認識を実現するアルゴリズム自体は，基本的には実はそれほど難解なものではありません．ソフトウエアが複雑なのは，多分に計算量やメモリ量削減のための様々な工夫やCに代表される手続き型プログラミング言語の抽象化能力の限界に起因しています．他方，ソフトウエア工学の分野では複雑な処理をコンパクトに記述可能な次世代プログラミングパラダイムとして，純粋関数型言語が研究されています．純粋関数型言語は長らく研究段階に留まっていましたが，近年はHaskellなど実用性の高
- haskell
- 音声認識
- sound
- speech recognition
- 研究
- 開発
- プログラミング
- programming
- speech
- nlp
音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
- 98 users
- ysdyt.hatenablog.jp
- テクノロジー
- 2022/10/13
OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。配信中のpodcast番組白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。最初に結論インストール実行方法結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果まとめ追記カタカナ英語完全制覇 whisperくんせんでんせんでん最初に結論 whisperは異なるモデルサイズが5種が利用可能であ
Juliusで連続音声認識 - 人工知能に関する断創録
- 92 users
- aidiary.hatenablog.com
- テクノロジー
- 2013/07/06
大語彙連続音声認識エンジンJuliusで遊んでみました。動作環境はMac OS X Mountain Lionです。準備コンパイラはXcodeでインストールしたgcc（2013/1/13）を使用しました。また、Macで動かす場合はPortAudioというライブラリも必要みたいなので、macportsであらかじめインストールしておきました（というか何か別のプロジェクトでインストール済みだった）。 % port installed portaudio The following ports are currently installed: portaudio @19.20111121_4 (active) julius本体のインストール Juliusのプロジェクトページからjulius-4.2.3.tar.gzをダウンロードします。サイトの右の方のQUICK DOWNLOADからダウンロ
- Julius
- 音声認識
- 言語
- mac
- プログラミング
- audio
Googleが発音のチェックを行う音声認識サービスを開始
- 90 users
- gigazine.net
- テクノロジー
- 2019/11/15
By Prostock-studio Googleが単語の発音チェックを行う新しいサービスを2019年11月14日(木)から開始しました。音声ファイルをAIが認識して文字起こしをしたり、声を出さずに音声入力をしたりと音声認識の技術は日々進化しています。Googleによる発音チェック機能は機械学習を用いた技術となっており、英語学習を格段に効率的にしてくれます。 How do you pronounce quokka? Practice with Search https://www.blog.google/products/search/how-do-you-pronounce-quokka-practice-search/ Google search will now give you feedback on your pronunciation - The Verge https://w
- 英語
- あとで読む
- google
- English
- gigazine
- サービス
- Life
Siriをはるかに越えるAIを備えたSiri開発者らによる新音声認識システム「Viv」がまもなく公開へ
- 86 users
- gigazine.net
- テクノロジー
- 2016/05/06
Appleの音声アシスタント機能「Siri」の誕生に関わった開発者らにより、かねてより開発されていた新しい音声認識システム「Viv」がようやく完成し、まもなく発表されるものと見られています。Vivは「複合的な質問を理解する」「多くのアプリを実行可能」など、Siriをはるかに越えるAIを備えているとのこと。 Siri’s creators say they’ve made something better that will take care of everything for you - The Washington Post https://www.washingtonpost.com/news/the-switch/wp/2016/05/04/siris-creators-say-theyve-made-something-better-that-will-take-care-of-
- 音声認識
- siri
- Apple
- AI
- あとで読む
- WIRED
- GIGAZINE
- SmartNews
LINEが無料のAI文字起こしアプリ「CLOVA Note」を提供開始～話者を区別した議事録作成も可能／世界3位の性能評価成績を獲得したAI音声認識モデルを採用
- 85 users
- forest.watch.impress.co.jp
- テクノロジー
- 2022/05/25
- LINE
- あとで読む
- AI
- アプリ
- Webサービス
- 人工知能
- 世界
- *あとで読む
音声認識テキスト入力Javascriptライブラリ w3voiceIM.js
- 85 users
- w3voice.jp
- 暮らし
- 2007/07/03
たった一行追加するだけで、あなたのサイトに音声認識機能を付けられます！ w3voiceIM.jsは、Webページの上のテキスト入力フォームに音声認識機能を追加するJavascriptライブラリです。手軽に音声認識を利用できることが特徴になっています。また、http://w3voice.jp/でサービスする共有型音声認識エンジンを利用するために、利用者やWeb開発者は、音声認識プログラムのインストールや設定作業を必要としません。 JavaおよびJavascriptが動作するPC及びWebブラウザからの利用をサポートしています。現在のバージョン最新のw3voiceIM.jsのバージョンは0.02です。とりあえず動くようになった開発途上バージョンです。使い方音声入力を開始するには、テキストの入力欄をマウスでダブルクリックします。音声入力パネルが出現したら、「Push here」と
- javascript
- 音声認識
- library
- voice
- java
- ajax
- web
- sound
- recognition
- cool
GPU不要・メモリ16GBの本当の一般家庭PCでチャットAIを動作させるライブラリ「GGML」が鋭意開発中、すでにRaspberry Piで音声認識AIを動作させるデモも登場済み
- 81 users
- gigazine.net
- テクノロジー
- 2023/06/07
ChatGPTやBardなどで利用されているチャットAIは、トレーニングだけでなく動作させるのにも数十～数百GBのVRAMなど非常に高いマシンスペックを要求するのが一般的です。そうした状況を変えるべく、GPU不要でチャットAIを動作させるライブラリ「GGML」の開発が進められています。 ggml.ai http://ggml.ai/ ggerganov/ggml: Tensor library for machine learning https://github.com/ggerganov/ggml GGMLの特徴は下記の通り。・Cで記述・16bit floatをサポート・4bit、5bit、8bitの整数での量子化をサポート・自動微分・「ADAM」「L-BFGS」という最適化アルゴリズムを搭載・Appleシリコンへの対応＆最適化・x86アーキテクチャではAVXおよびAVX
Googleの音声認識エンジンを使って音声ファイルから文字起こししてみた
- 81 users
- gigazine.net
- テクノロジー
- 2018/08/24
Googleがクラウドサービスとして提供している「Google Cloud Platform」の中に、「Cloud Speech-to-Text」というサービスがあります。このサービスは音声ファイルをAIが認識して文字にしてくれるというものなのですが、一体AIはどれくらい正確に文字起こししてくれるものなのか実際に使って試してみました。 Cloud Speech-to-Text - Speech Recognition | Cloud Speech-to-Text API | Google Cloud https://cloud.google.com/speech-to-text/ まず、GoogleのクラウドサービスであるGoogle Cloud Platformの登録を済ませておきます。まだ登録していないという人は以下の記事の冒頭部分を参考に登録しておいてください。無料でGoo
- 音声認識
- google
- あとで読む
- 文章
- 音声
- js
- Cloud
［速報］Google、家庭用の音声認識デバイス「Google Home」発表。スピーカーで音楽再生、テレビで動画再生も可能。Google I/O 2016
- 80 users
- www.publickey1.jp
- テクノロジー
- 2016/05/19
［速報］Google、家庭用の音声認識デバイス「Google Home」発表。スピーカーで音楽再生、テレビで動画再生も可能。Google I/O 2016 Googleはサンフランシスコで開催中のイベント「Google I/O 2016」で、音声認識デバイス「Google Home」を発表しました。 Google Assistantを使ってGoogleと会話ができるほか、内蔵のスピーカーから音楽を再生したり、Chromecastを利用してテレビでYouTubeなどの動画再生も可能です。
- ai
- google
- Publickey
- 音声認識
- 家電
- あとで読む
- news
Speech API - 音声認識 | Google Cloud Platform
- 78 users
- cloud.google.com
- テクノロジー
- 2016/03/24
Convert audio into text transcriptions and integrate speech recognition into applications with easy-to-use APIs. New customers also get up to $300 in free credits to try Speech-to-Text and other Google Cloud products.
- GCP
- speech
- API
- 音声認識
- recognition
- cloud
- Google
- machine learning
- audio
- BASE
Webアプリに高機能な音声認識を追加するWeb Speech API - Kesinの知見置き場
- 77 users
- kesin.hatenablog.com
- テクノロジー
- 2013/08/28
Microphone' by Juan_Alvaro, http://www.flickr.com/photos/31590610@N03/5408706936/ CC by 2.0 最近、にわかに音声認識というものが盛り上がっています。スマートフォンに搭載されている、AppleのSiri、NTTドコモのしゃべってコンシェル、Googleの音声検索あたりが有名ですが、お掃除ロボやエアコン、カーナビといった家電にも音声認識機能が搭載されるようになってきました。認識の精度や意識の問題（人前で機械に話しかけるのはちょっと恥ずかしい）などの課題はありますが、音声認識はアプリや家電のUIの一部としてこれから普及していくと思われます。ですが、一般の開発者にとって音声認識機能を自分のアプリやウェブサイトに組み込むのはまだまだ難しいです。 Juliusのようなオープンソースの音声認識システムもありま
- 音声認識
- javascript
- API
- WebAPI
- chrome
- speech
- API特集
- web
ゼロからはじめるPython(84) 録り溜めたボイスメモをAI音声認識APIで一気にテキスト変換しよう
- 75 users
- news.mynavi.jp
- テクノロジー
- 2021/10/17
家電量販店に行くと今でもボイスレコーダーのコーナーがあり人気だ。またスマートフォンにも必ずボイスメモアプリがある。筆者も一時期アイデアをボイスメモで録り溜めていた。しかし、ボイスメモは聞き直す必要があり管理が面倒という欠点もある。そこで、今回はPythonからMicrosoftのAPIを利用して自動的にボイスメモをテキストに変換する方法を紹介しよう。 WAVファイルを音声認識してテキストに変換したところ音声認識APIを使ってみよう AI技術の進歩により音声認識の精度が向上している。これまでも音声認識の技術はあったものの精度が今一歩だった。そして個人ユーザーが気軽に活用できる感じではなかった。ところが、最近では、各社が競い合うように音声認識の精度向上に力を入れている。各社から発売されているAIスピーカーを積極的に活用している読者も多いことだろう。そして、大きな点として、Microsoft
- python
- AI
- microsoft
- Azure
- あとで読む
- api
- 音声認識
音声認識のアドバンスト・メディア
- 75 users
- www.advanced-media.co.jp
- テクノロジー
- 2006/05/10
もしも、人とキカイが自然な会話でつながる未来を実現できるなら。 AI音声認識国内シェアNo.1※の「AmiVoice®」があれば、そんな楽しい世界だって、きっと夢ではありません。音声認識の力で、ワクワクできる未来をあたりまえに。私たちは、アドバンスト・メディアです。 ※出典：合同会社ecarlate「音声認識市場動向2024」ソフトウェア/クラウドサービス市場
- 音声認識
- company
- アミボイス
- 音声入力
- mobile
- 企業
- voice
- 技術
- Windows
リモコンはオワコン。音声認識でお部屋の家電を操作してみた。 - 凹みTips
- 75 users
- tips.hecomi.com
- テクノロジー
- 2012/01/17
はじめに本エントリは未来のお部屋シリーズの第４弾です。本シリーズでは、音声認識システムの Julius と TCP/IP 通信で制御できる赤外線学習リモコン iRemocon を繋いで音声認識による家電操作の実現を目指しています。ついに！音声認識でお部屋の家電を操作できましたので、ご紹介します。環境 Ubuntu 10.04 Boost 1.48.0 gcc version 4.6.1 20110617 (prerelease) (GCC) Julius grammar-kit-v4.1 iRemocon 集音マイク×2 (2分岐) 構成動作構成は以下になります。マクロ実行部は iRemocon 以外の何か操作も出来るようにしようと思ってますが、未実装です。ソースコード各ソースコードは github に上げました。 https://github.com/hecomi/Jul
- julius
- 音声認識
- 家電
- C++
- Linux
- 部屋
- テレビ
- 技術
- これはすごい