並び順

ブックマーク数

期間指定

  • から
  • まで

361 - 400 件 / 2710件

新着順 人気順

音声認識の検索結果361 - 400 件 / 2710件

  • 「クリリンのことかーっ!」は怒り36%、嫌悪21%──声から感情を検出するAI、ユーザーローカルが無償公開

    ユーザーローカルは11月19日、AIが人間の声を分析し、その中に含まれる感情を7種類に分類するサービスを無償公開した。同社が実験でアニメのせりふを分析したところ、「ドラゴンボール」に登場する孫悟空の「クリリンのことかーっ!」は怒りが36.8%、嫌悪が21.3%だったという。 感情の度合いを数値化したり、グラフ化したりできる。まずはPCブラウザ(Google Chrome、Firefox、Microsoft Edge)向けの専用サイトで提供し、今後はWeb APIのリリースも検討する。 検出できる感情は「平穏」「幸福」「怒り」「悲しみ」「恐怖」「嫌悪」「驚き」。利用者が専用サイトで声を録音するか、オーディオファイル(MP3・WAV)をアップロードすると、AIが音声を分析。これらの7種類に分類し、その度合いを数値化する。 アニメのせりふを使った他の実験では、「鬼滅の刃」に登場する我妻善逸の「雷

      「クリリンのことかーっ!」は怒り36%、嫌悪21%──声から感情を検出するAI、ユーザーローカルが無償公開
    • サービス終了のお知らせ - NAVER まとめ

      サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

        サービス終了のお知らせ - NAVER まとめ
      • 「Siri」がパスコードロックを無視? 他人の音声に応えてメール操作も

        iPhone 4Sにパスコードロックがかかっていても、他人がボタンを押してSiriに話しかけると操作できてしまうという。 “センス”のある受け答えで話題になっているiPhone 4Sの音声操作機能「Siri」が、パスコードロックがかけられた状態でも話しかけられると反応してしまうことがあるという。セキュリティ企業の英Sophosが10月19日のブログで伝えた。 セキュリティ専門家などは、iPhoneが無断で使われるのを防ぐため、使っていない時はパスコードなどのロックをかけることを奨励している。ところがiPhone 4Sは、パスコードロックがかかっていても、他人がボタンを押してSiriに話しかけると操作できてしまうという。 Sophosのグラハム・クルーリー氏は、同僚に承諾を得てこの同僚のiPhone 4Sを借り、パスコードロックがかかった状態で、電子メールを書いたりテキストメッセージを送信し

          「Siri」がパスコードロックを無視? 他人の音声に応えてメール操作も
        • Siriを常用する時がくるのか…? iOS 7のSiriが賢くなってます

          Siriを常用する時がくるのか…? iOS 7のSiriが賢くなってます2013.09.24 23:00 ベータと正式版の違いはこれか…。 SiriがiOS 6のそのころよりも、けっこう賢くなってる気がするのは僕だけでしょうか。今までのSiriは遊び相手くらいの認識で、そこまでお相手するほどではなかったので、どんな機能があったのかあまり記憶にないんですが…。 iOS 7のSiriになってから、左下の?ボタンを押してみると、項目増えてないかこれ…。いや、確実に増えてる〜と気づいてしまったので、これは便利そうだと思う機能をご紹介します。 アプリを開く 全てのアプリを試してはいませんが、たいていのアプリは認識してくれました。LINEを開く。Instagramを開く。ぐるなびを開く。Twitterを開く。facebookを開くなどなど。今は指紋認証するのに慣れている最中なのであんまり使う機会はない

            Siriを常用する時がくるのか…? iOS 7のSiriが賢くなってます
          • Google、携帯写真で検索するGoogle Gogglesを開始&音声検索が日本語対応

            How to watch NASA's first Boeing Starliner crewed flight launch today (scrubbed)

              Google、携帯写真で検索するGoogle Gogglesを開始&音声検索が日本語対応
            • Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita

              こんにちは!逆瀬川 ( @gyakuse ) です! 今日は最近作った議事録文字起こしアプリに話者分離機能をくっつけたものを作っていきたいと思います。 ChatGPT APIの使い方、Whisper APIの使い方、Hugging Face Spacesへのデプロイ方法等を知りたい場合は以下の記事をぜひ! できたもの openai_keyにOpenAIのAPIキーを入れる メイン音声ファイルに会話音声 (wav, 25MB以内) を入れる 話者 (1) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (1) の名前を入れる 話者 (2) 参考音声ファイルに話者 (1) の参考音声 (wav) を入れる 話者 (2) の名前を入れる 上記を行って送信ボタンを押すと処理が開始されます。なお、参考音声は10秒程度で大丈夫です。実装全体は以下で確認できます。 話者分離 (S

                Whisperで文字起こしをした議事録の発話者の名前を自動的に判定する! - Qiita
              • 今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな

                今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな2021.06.25 01:5433,510 三浦一紀 オンライン発表会って難しいよね。 Windows 11の発表会、内容的には結構ワクワクするものでしたが、いくつか気になるところがありましたね。 まず、メディア向けのサイトやイベント公式サイトでの配信が止まりまくっていました。結局Twitterでの配信を見て原稿書いていました。あとでアーカイブが見られるとはいえ、やっぱりリアルタイムで見たいじゃないですか。何が原因なのかはわかりませんけどね。 Image: Microsoftあとは、字幕。メディア向けサイトでは、英語以外にも日本語やフランス語など各国に対応していたのですが、どうやら自動翻訳を使っていたようで、日本語字幕を見ていてもあまり意味がわからないところがありました。自動翻訳の聞き取り精度も

                  今日のマイクロソフト、配信は止まるし自動翻訳メタメタだったし、もうちょっと頑張ってほしかったな
                • / WSJ日本版 - jp.WSJ.com - Wsj.com

                  サイデルが手がけるNYやロンドンの個性派ホテル 新世代の個性派ホテルとして注目されているサイデル・グループ。同グループが運営する都市型のホテルはビジネス客のすべてのニーズに応じることがコンセプト。その充実度は自給自足の島に例えられるほどだ。ニューヨーク、ワシントン、ロンドンにある各ホテルを紹介。

                  • 年間1000円、エフエム和歌山のAIアナウンサー「ナナコ」の裏側

                    AWSのテキスト読み上げサービスを使ったラジオ放送で、一躍有名になったエフエム和歌山。システムを作った山口さんが、AWSのユーザーイベント「JAWS DAYS 2018」で、AIアナウンサーの裏側を語った。 「年間1000円で働いてくれるAIアナウンサー」。エフエム和歌山のコミュニティーFM「Banana FM」が2017年7月に始めたラジオ放送は、大きな反響を呼んだ。米Amazon Web Services(AWS)のテキスト読み上げサービス「Amazon Polly」を使い、ニュースや天気予報を自動で読み上げるというもので、年間でのコストは1000円程度とも言われている。 あらかじめ新聞社などからニュース原稿を受け取り、エフエム和歌山が開発したプログラムを使い、合成音声で読み上げやすいようにルビや句読点の位置などを自動修正。原稿をエフエム和歌山のサーバに保存しておき、放送直前にAmaz

                      年間1000円、エフエム和歌山のAIアナウンサー「ナナコ」の裏側
                    • iPhone 4Sの隠し球機能「Siri」とは?

                      • スマスピやiPhoneのマイクをレーザー光線で操作する攻撃、電通大教授らが警告

                        スマートスピーカーやスマートフォンなどのデバイスに搭載されているMEMSマイクにレーザー光線を当てることで、AIアシスタントを操作できることを、電気通信大学の菅原健准教授らの研究者が11月4日に公開した論文で紹介し、専用サイトも公開した。 研究者らはこの仕組みを「Light Commands」と名付けた。光を使って遠距離から音声制御システムにコマンドを送る攻撃だ。攻撃者は音声信号を光に変調してマイクに向けて照射し、マイクは受信した光を音声信号に変換してアシスタントに伝える。実験では、透明なガラス窓越しに、最大110メートル離れた位置からコマンド入力に成功した。 実験でコマンド入力に成功したのは、Appleの「Siri」、Googleの「Googleアシスタント」、Amazon.comの「Alexa」、Facebookの「Portal」を搭載するさまざまな製品。 例えば、スマートホームを制御

                          スマスピやiPhoneのマイクをレーザー光線で操作する攻撃、電通大教授らが警告
                        • Engadget | Technology News & Reviews

                          Hands-on with the new iPad Pro M4: Absurdly thin and light, but the screen steals the show

                            Engadget | Technology News & Reviews
                          • iPhoneを「バーチャル秘書」にする「Siri」リリース

                            iPhoneをバーチャル秘書にできるアプリ「Siri Personal Assistant」を米新興企業Siriがリリースした。iPhone 3GSをサポートし、無料でダウンロードできる。 Siriアプリでは、簡単な英語の音声コマンドを使ってレストランの予約やタクシーを呼ぶといったことができる。例えば、「Will it rain today?(今日、雨は降る?)」と話しかけると、SiriはNuanceの音声認識技術を使って音声コマンドを理解し、天気予報を表示する。「オフィス近くのイタリアンレストランを探して」と言えば、ユーザーの位置情報に基づいてレストラン情報を検索する。「明日の夜7時半に○○で2人分の席を予約」といったように、自然言語による操作が可能だ。 Siriでは現時点では、レストランの検索と予約、近所のイベント検索、タクシーの予約、映画の上映時間の検索、地域情報検索、天気予報が利用

                              iPhoneを「バーチャル秘書」にする「Siri」リリース
                            • GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision

                              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                GitHub - openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision
                              • 音声アシスタント「Siri」、3月には日本語に対応か

                                「Siri」に関する新しい噂によると、同音声制御機能は早ければ3月にも日本語、標準中国語、ロシア語に対応するという。 Penn Olsonによると、このニュースは、中国の技術ニュースサイトDoNewsが中国語版Siriに関わっているApple技術者の話として報じたものだという。この情報筋は、DoNewsに対し、内部テストは既に始まっており、3月には一般向け製品となるだろうと述べているという。 Siriは現在、英語、ドイツ語、フランス語にのみ対応しているが、Appleは、韓国語、中国語、日本語、イタリア語、スペイン語に2012年内に対応すると述べている。

                                  音声アシスタント「Siri」、3月には日本語に対応か
                                • Google Cloud Speech API vs. Amazon Transcribe - Qiita

                                  文字起こしAPIガチンコバトル ググってざっと見れた範囲の「文字起こしAPI比較してみた」系記事では、数行(もしくは数分)レベルの非常に短い文字起こしを行いgood/badを述べているものが多いです。もしくはニュース動画のような"クリアすぎる音源"に対して行っているものも多いです。Amazon Transcribeについてバズっていたブログでも、英語での文字起こしで精度が高い話をしています。自然言語処理分野では英語の精度が高いのは知られているところですが日本語だとどうかというところが気になるところです。 自分が知りたいのは、 - 日本語の音源 - Podcastのように素人収録されたある程度ノイズが含まれた音源 - 1hくらいの長尺音源 - 複数人がクロストークしている音源 というような特徴を持った音声データに対してAPIだけでどこまで戦えるか(文字起こしできるか)だったので、いろいろ検証

                                    Google Cloud Speech API vs. Amazon Transcribe - Qiita
                                  • 無料で自動文字起こししてくれるMicrosoft製アプリ「Group Transcribe」を使ってみた

                                    Microsoftが、誰が何を話したのかリアルタイムで文字化して記録してくれる、無料の文字起こしアプリ「Group Transcribe」を公開していたので、実際に使ってみました。 「Group Transcribe」をApp Storeで https://apps.apple.com/jp/app/group-transcribe/id1527145885 iOS端末でApp Storeにアクセスして「Group Transcribe」を入手します。 インストールするとアプリの説明画面が4枚表示されます。「次へ」をタップするか、右へスワイプして進めていきます。 最後の説明画面で「始めましょう。」をタップ。 利用規約が表示されるので「承認」をタップ。 表示名と言語を入力します。 言語はプルダウン式メニューになっていて、かなり多数の言語が用意されています。ここで設定された言語をベースに文字起

                                      無料で自動文字起こししてくれるMicrosoft製アプリ「Group Transcribe」を使ってみた
                                    • “リアルのつぶやき”をテキスト化してTwitterに――iPhoneアプリ「TweetMe」、近日登場

                                      “リアルのつぶやき”をテキスト化してTwitterに――iPhoneアプリ「TweetMe」、近日登場 フライトシステムコンサルティングが、アドバンスト・メディアの音声認識技術「AmiVoice」を利用したiPhone向けアプリ「TweetMe」を、近日中にも公開すると発表した。 フライトシステムコンサルティングはアドバンスト・メディアと、同社が開発するiPhone/スマートフォン向けアプリの全てにAmiVoiceを搭載することで合意。連携アプリの第1弾として、実際につぶやいた言葉をテキスト化してTwitterに投稿するiPhoneアプリTweetMeを提供する予定だ。 フライトシステムコンサルティングはAmiVoiceの(1)高い音声認識率と早い認識処理力(2)医療分野やドコモ端末に採用された実績(3)音声データがコンパクトに保存され、他のアプリケーションとの連携が容易である点 を評価。

                                        “リアルのつぶやき”をテキスト化してTwitterに――iPhoneアプリ「TweetMe」、近日登場
                                      • Raspberry Piでインターホンの音を検知してLINEに通知する (1)インターホンの音を録音する - Qiita

                                        住居に必ず備わっているインターホン。 ・聞こえづらい部屋がある ・イヤホンをしていると聞こえない ・外出中の来客を把握したい という課題・要望に対応すべく、Raspberry Piを使ってLINEに通知するシステムを作りました。 LINEであれば、スマホがブーブブッと振動して気づきやすいですよね。 少し調べたところ、インターホンのLEDや画面の点灯で検出するものが多かったですが、 自分のアパートのインターホンだと難しそうだったので、音で検知するようにしました。 FFTを使って、インターホンに対応する周波数(音の高さ)を検出します。 いろんなサイトから組み合わせる形になったので、まとめます。 今回は、Raspberry Piを使ってインターホンの音を録音するところまで。 このデータを使って、音の検知基準を作成します。 ※準備では.wavファイルに保存していますが、運用時には保存せずに処理しま

                                          Raspberry Piでインターホンの音を検知してLINEに通知する (1)インターホンの音を録音する - Qiita
                                        • 鼻歌でも音楽を探し当てる「midomi.co.jp」日本公開

                                          Melodis Corporation(メロディス・コーポレーション)は8月10日、独自開発の音声検索技術を活用した音楽SNSを公開する。2007年1月に公開された英語版「midomi.com」の日本向けサービスで、日本で今後サービスを拡大していく第一歩となる。 音楽SNS「midomi.co.jp」では、独自開発の音声検索・音声認識技術「MARS(Multimodal Adaptive recognition System:複合適応認識システム)」を核としたサービスを提供する。MARSは、人の声と人の声をマッチングさせる音声認識の検索エンジン。この技術により、利用者は歌の一部分を口ずさむだけで、その曲をmidomi.comのデータベースから検索できる。歌詞が分からない場合でも、ハミングだけでも検索できる。複数の特徴から照合するため、メロディーが同じで違う歌詞の曲でも照合できるのが特徴だ。

                                            鼻歌でも音楽を探し当てる「midomi.co.jp」日本公開
                                          • MOONGIFT: � Web上で音声入力を可能にする「w3voiceIM.js」:オープンソースを毎日紹介

                                            音声入力というのはずっと昔からあるわりには一般的な普及が進まない技術だ。もちろん、何らかの障害がある方々の間では利用されているが、もっと一般に普及しなければよりよい技術革新やコスト低減などが臨めないのではないだろうか。 単語の認識精度は高い そんな中、一つのきっかけになり得るソフトウェアが登場した。なんとJavaScriptを埋め込むだけで音声入力が可能になる。 今回紹介するオープンソース・ソフトウェアはw3voiceIM.js、Web APIを使った音声認識ライブラリだ。 w3voiceIM.jsはw3voice.jpで提供される音声認識エンジンをJavaScriptだけで利用できるようにするライブラリだ。テキストボックスやテキストエリアに対して利用可能で、オブジェクトをダブルクリックすると音声入力のダイアログが表示される。 Pukiwikiに組み込まれた例。テキストエリアに音声入力でき

                                              MOONGIFT: � Web上で音声入力を可能にする「w3voiceIM.js」:オープンソースを毎日紹介
                                            • Microsoft Vista Speech Recognition Tested - Perl Scripting

                                              Credits to scrubadub (check for user: scrubadub1 for more videos like this !) for sharing this first, until he got banned... Here we go again... Please don't ban me.

                                                Microsoft Vista Speech Recognition Tested - Perl Scripting
                                              • Engadget | Technology News & Reviews

                                                Parrots in captivity seem to enjoy video-chatting with their friends on Messenger

                                                  Engadget | Technology News & Reviews
                                                • Gmail

                                                  Gmail ならメールを直感的に、効率的に、便利に使えます。15 GB の保存容量で、迷惑メール対策も充実。モバイル アクセスも可能です。

                                                  • 21世紀の文字起こし(3) 〜 Cloud Speech-to-Text 編 〜 - the code to rock

                                                    ここまでのあらすじ 免責事項 Cloud Speech-to-Text の使い方 参考資料 音声ファイルを作る サンプリングレートの変更 ステレオをモノラルに FLAC形式に変換 Google Cloud Platformにアカウント登録 新規プロジェクトを作成 音声ファイルをアップロードする APIの有効化 & サービスアカウントキーの作成 Cloud Shell にJSONファイルをアップロード Pythonファイルの準備 実行 結果と講評 ハマりどころ 料金 録音時の注意点(より正確に起こすために) まとめ ここまでのあらすじ 少なからぬ人々が直面する文字起こし(音声を文字に変換する作業)について、手動でパチパチやっていくのはけっこうつらいものがあるので、なんとか自動化できないか? というこのシリーズ。 気がつけば最初の記事はちょうど2年前の今頃に書いていて、続編はその半年後。で、そ

                                                      21世紀の文字起こし(3) 〜 Cloud Speech-to-Text 編 〜 - the code to rock
                                                    • 動画の音声を自動で書き起こす「もじもじTV」

                                                      音声認識技術の開発を行うカタログは10月14日、動画内の音声を自動でテキストに書き起こし、字幕化するサービス「もじもじTV」のクローズドαテストを開始し、αテスター1000人の募集を始めた。 YouTubeやニコニコ動画などにアップされた動画のURLを登録すると、音声を自動でテキスト化。字幕として表示する。ユーザーが撮影した動画ファイルや、ICレコーダーで録音したMP3ファイルなどをアップロードし、音声を書き起こすことも可能だ。 自動で書き起こしたテキストに誤りがある場合は、手作業で修正する機能も備えた。 テキストから動画を検索することも可能。書き起こしたテキストに出てくる単語を自動で抽出し、動画の時間軸上にキーワードとして表示することもできる。キーワードをクリックすれば、登場したタイミングから再生することも可能だ。 独自の音声認識エンジンを利用した。単語の前後関係を確認し、適切なテキスト

                                                        動画の音声を自動で書き起こす「もじもじTV」
                                                      • Googleがスマホ上で音声をリアルタイムでテキストに起こすアプリを聴覚障害者向けに開発

                                                        WHOによれば、世界中でおよそ4億6600万人が聴覚障害を抱えていて、その数は2050年までに9億人まで増えるとみられるそうです。聴覚障害者は人々の声が聞こえにくいか全く聞こえないため、会話をする際に不便が生じることが多く、コミュニケーション不足に陥ったり講演などに足が運びづらかったりします。そんな聴覚障害者を支援するため、Googleは音声をテキストに変換するアプリ「Live Transcribe(音声文字変換)」と、補聴アプリ「Sound Amplifier(音声増幅)」を開発しました。 Google AI Blog: Real-time Continuous Transcription with Live Transcribe https://ai.googleblog.com/2019/02/real-time-continuous-transcription-with.html

                                                          Googleがスマホ上で音声をリアルタイムでテキストに起こすアプリを聴覚障害者向けに開発
                                                        • 自動文字起こしや自動音声読み上げモデルをオープンソースで開発する「Coqui」メンバーは元Mozillaエンジニア

                                                          収録した音声をそのままテキストに自動で文字起こしするSpeech to Text(STT、音声テキスト変換)モデルや、入力したテキストを自動音声で読み上げるText to Speech(TTS、テキスト音声変換)モデルをオープンソースで開発する企業が「Coqui」です。 Coqui https://coqui.ai/ Coquiの創設者たちはもともとFirefoxやThunderbirdの開発で知られるMozillaに在籍していました。創設者たちは音声技術が大企業によって独占され、オープンソースで提供されなくなるかもしれないと考え、独立して企業を立ち上げ、オープンソースの音声認識エンジンを構築したとのこと。 CoquiのSTTモデル「Coqui STT」のリポジトリはGitHubにホストされています。Coqui SSTの特徴は、あらかじめ音声ライブラリが用意されているのではなく、あらかじめ

                                                            自動文字起こしや自動音声読み上げモデルをオープンソースで開発する「Coqui」メンバーは元Mozillaエンジニア
                                                          • ブラウザのみで音声認識とテキスト読み上げを実現する Web Speech API | CYOKODOG

                                                            HTML5 の Web Speech API をご存知でしょうか? ブラウザベースで音声認識とテキストの読み上げを実現する API です。 今回はこの Web Speech API について試したことをまとめてみました。 ちなみに少し前の Chrome では Speech Input API という INPUT 要素に x-webkit-speech という属性を記述するのみで、手軽に音声認識を実現できるという機能がありましたが現バージョンでは廃止されてるようです・・・ Web Speech API の対応ブラウザは Can I Use よりご確認ください。 テキストの読み上げを行う Speech Synthesis API Speech Synthesis API を使用すると、指定したテキストを PC に読み上げさせることできます。 使い方は非常に簡単で、new SpeechSynth

                                                            • ボイチェンだけじゃない! 「Voidol2」のアナライザが優れものだった【藤本健のDigital Audio Laboratory】

                                                                ボイチェンだけじゃない! 「Voidol2」のアナライザが優れものだった【藤本健のDigital Audio Laboratory】
                                                              • whisper.cppのCore ML版をM1 MacBook Proで動かす

                                                                OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順をなぞりつつ手元のMBPで動かしてみたメモ。 なお、実行環境は以下の通り: MacBook Pro M1 Max 64GB macOS Ventura 13.3.1 Core MLモデルの生成手順 依存パッケージのインストール whisper.cppのCore MLモデルの作成に必要なパッケージをインストールする。

                                                                  whisper.cppのCore ML版をM1 MacBook Proで動かす
                                                                • “別人の声”が出せる「アニメガホン」登場 コンサート会場なら「歌手の声で」警備・案内可能に

                                                                  クリムゾンテクノロジーが開発したリアルタイムボイス変換AI(人工知能)技術「リアチェンvoice」を応用した。メガホンで発話する人の声を解析し、あらかじめ学習させた別人の声としてほぼ遅延なく出せるという。 一般にボイスチェンジャーは、声の音程や音質をフィルタリングして変化させるが、ANIMEGAPHONEには、言語やイントネーションなどを保ちながら声質を変換するシステムを「メガホン単体」に搭載したという。 現段階ではレンタルでの提供を想定し、試用を希望するイベント主催者などを公式サイトで受け付ける。提供価格などは、複数の実地テストを行った後、設定する。 第1回の実地テストはガレージキットのイベント「ワンダーフェスティバル」(2月18日、千葉・幕張メッセ)で行う予定。ワンダーフェスティバルでは、声優の平田広明さん、小岩井ことりさんの声を事前登録したメガホンを使う。 関連記事 誰でも「美少女バ

                                                                    “別人の声”が出せる「アニメガホン」登場 コンサート会場なら「歌手の声で」警備・案内可能に
                                                                  • 事実上のAmazon Echoを手に入れた

                                                                    Alexaが我が家にやってきた。 日本では年内にAmazon Echoが発売されることが明らかになっているが、9月19日に発売されたばかりのFire HD 10をAmazon.co.jpから買ったおかげでAlexaが一足早く、合法的に(技適を通過したデバイスで)使えるようになった。 今売られているFire HD 10はディスプレイサイズが10.1インチ、1920×1200。500グラム。Fireとしては7世代目に当たる。これを1万4980円で買った。定価は1万8980円だがAmazon Primeに加入しているので4000円引き。ほぼ1万5000円で買えるタブレットとしては上質なものだ。Dolby Atmos対応のデュアルステレオスピーカーによるサウンドのバランスもまあまあいい。少なくともGoogle Homeよりは。 我が家にある非iPadタブレットとしては最大(うちには12.9インチの

                                                                      事実上のAmazon Echoを手に入れた
                                                                    • OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog

                                                                      地方拠点の一つ、九州支社に所属しています。サーバ・ストレージを中心としたSI業務に携わってましたが、現在は技術探索・深堀業務を中心に対応しています。 2018年に難病を患ったことにより、定期的に入退院を繰り返しつつ、2023年には男性更年期障害の発症をきっかけに、トランスジェンダーとしての道を歩み始めてます。 【IIJ 2022 TECHアドベントカレンダー 12/8(木)の記事です】 Whisperの追加学習に挑む2022年の冬 2022年アドベントカレンダー企画だそうです。 いかがお過ごしでしょうか。 私はもう興味を引くものに没頭するしか楽しみがないもんで、PCに向かってぼんやり面白いネタはないかなーと探す日々です。 最近はすっかりディープラーニングにズブズブで、とうとう数式かくのが面倒なあまり手書き入力のためのペンタブレットを買いました。てへ。 今回は9月から10月にかけてStabl

                                                                        OpenAI Whisper に追加学習をさせる試み | IIJ Engineers Blog
                                                                      • 深層学習を用いて歌からボーカルや楽器だけを抽出する技術が開発される

                                                                        既存の曲からボーカルや特定の楽器だけをきれいに抽出できる新しい技術を、「End-to-End学習」によるニューラルネットワークを用いて開発したという論文が発表されています。 [1810.12187] End-to-end music source separation: is it possible in the waveform domain? https://arxiv.org/abs/1810.12187 楽曲からボーカルやギター、ドラムなど、特定のパートを分離して抽出できるニューラルネットワークとして、「DeepConvSep」と呼ばれる畳み込みニューラルネットワークが存在していました。これは、楽曲の周波数に応じてどの音がどれぐらい強くなっているかを示す「マグニチュードスペクトログラム」を分析してから抜き出すという手法もの。しかし、DeepConvSepでは、抜き出したパートの精度

                                                                          深層学習を用いて歌からボーカルや楽器だけを抽出する技術が開発される
                                                                        • 音声認識テキスト化 Chrome書記

                                                                          Chrome書記は、Google Chromeブラウザで動作する音声認識機能を使い、音声をテキスト化するWEBアプリ。最新のChromeとマイクが必要です。 マイクに向かって話した言葉がテキストに変換されます。Google音声認識は非常に精度が高く、メリハリよく丁寧に話すことによって、キーボードに匹敵する速度で文字入力が行えます。 印刷物の文字起こし等にお使いください。 使い方 サンプルで桃太郎を用意しました。音声認識ボタンを押してから発声してみてください。一気に長く読まないように、適度に間を置くことで認識率を上げることができます。長く間があくと自動的に認識処理は終了します。 間によって文章は区切られますが、清書ボタンでテキストエリアに連結することができます。文章をクリックで他の候補の表示、置き換えもできます。 サンプル むかしむかし、あるところに、おじいさんとおばあさんが住んでいました。

                                                                            音声認識テキスト化 Chrome書記
                                                                          • Androidで日本語音声認識アプリが開発可能に、GoogleがAPI公開

                                                                            Googleは2009年12月25日、同社の日本語音声認識技術を利用できるAPIを、Android開発者向けに提供していることを明らかにした(Google Japan Blogの記事)。APIはAndroidに標準で組み込まれており、簡単に利用できる。今後登場するAndroidアプリでは音声入力機能を備えるケースが増えそうだ。 同社は2009年12月7日、日本語の音声入力でGoogleの検索用キーワードを渡すことができる「Google音声検索」がiPhoneおよびAndroid端末向けに公開したが、そこで使われている音声認識APIは、実はAndroid上で開発者なら誰でも使える形で公開されていたのだ。 音声認識技術はAndroidが提供するフレームワークに組み込まれる形で提供している。使い方もシンプルで、Androidに標準で組み込まれているアプリケーション間連携機構のインテントを使い呼び

                                                                              Androidで日本語音声認識アプリが開発可能に、GoogleがAPI公開
                                                                            • 理想は“1人で制作できるニュース番組”--ソニー「ニュースマネージャー」の狙い

                                                                              ソニーは、文字のニュース原稿を音声とCGに変換し、自動で読み上げる「ニュースマネージャー」の実証実験を、渋谷の大型街頭ビジョン「ソニービジョン渋谷」で実施。その試みや狙いについて聞いた。 ニュースマネージャーは、文字情報として入力されたニュース原稿をソニーのボイステクノロジー(音声対話技術)を応用して自然な音声発話に変換。さらにCGで生成されたデジタルアナウンサーの表情と連動させて読み上げる、ニュースの提供に特化したアプリケーションとして開発されたもの。 実証実験では、共同通信デジタルが提供するニュース原稿を、アニメ制作で知られるA-1 Picturesがデザイン・監修したデジタルアナウンサーが読み上げるというもので、実社会での有用性や、自動読み上げによるニュースの伝わり方などの検証が目的。約2分程度の番組を1日9回放送し、この実験は8月6日から22日までの17日間行われた。 ニュースを読

                                                                                理想は“1人で制作できるニュース番組”--ソニー「ニュースマネージャー」の狙い
                                                                              • Siriのプロトコル、解明される | スラド アップル

                                                                                iOSおよびAndroid向けアプリを開発する仏ApplidiumがiPhone 4Sの音声認識システムSiriのプロトコル解析を行ったそうだ(Applidium、TechCrunch、本家/.)。 Siriは入力された音声をAppleのサーバーに送信、サーバー側で解析を行う仕組みで動作するが、Applidiumはこのやり取りに使われるプロトコルを解明したとのこと。テストではiPhone 4S以外のクライアントから音声を送信してレスポンスを受け取ることに成功しており、理論的にはどのような端末からもSiriにアクセスできるという。ただし、利用には端末に固有なIDを要するため現実的には難しいとのこと。 Applidiumの開発者らは、まずプロキシーサーバを立ててHTTPトラフィックを解析したそうだ。しかしこれではSiri関連のデータは取得できなかったそうだ。そこでtcpdumpでネットワーク通

                                                                                • 10代の半数以上が音声検索を毎日活用、その利用シーンとは?【Google調査】

                                                                                  『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

                                                                                    10代の半数以上が音声検索を毎日活用、その利用シーンとは?【Google調査】