タグ

音声認識に関するobata9のブックマーク (11)

  • YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃 音声アシスタント機能を悪用

    Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。Twitter: @shiropen2 米テキサス大学サンアントニオ校と米コロラド大学コロラドスプリングス校に所属する研究者らが発表した論文「Near-Ultrasound Inaudible Trojan(NUIT): Exploit Your Speaker to Attack Your Microphone」は、スマートフォンやスマートスピーカーの音声アシスタント(Siri、Google Assistant、Alexa、Cortana)に対する不可聴攻撃を提案した研究報告である。 その手口は、インターネット(動画や音楽、Web会議など)を通じて、人間には聞こえない音を流し、リモートでス

    YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃 音声アシスタント機能を悪用
    obata9
    obata9 2023/03/31
    YouTubeで“聞こえない音”を流し、スマホを遠隔操作する攻撃で、音声アシスタント機能を悪用していると、米国の研究チームが発表した。
  • 村田製作所が超小型エッジAIモジュールを開発、消費電力0.2mWで音声認識が可能

    村田製作所が超小型エッジAIモジュールを開発、消費電力0.2mWで音声認識が可能:CEATEC 2022 村田製作所は、「CEATEC 2022」において、開発中の小型かつ低消費電力のエッジAI人工知能)モジュールを披露した。同社は既に、グーグルと共同開発した「Coral Accelerator Module」を製品化し量産しているがその小型版の位置付けとなる。

    村田製作所が超小型エッジAIモジュールを開発、消費電力0.2mWで音声認識が可能
  • 聞こえ始めたVoiceTechの鼓動

    2021年初頭、Twitter(ツイッター)の音声版ともいわれる「Clubhouse(クラブハウス)」が日市場を席巻したのは記憶に新しい。その後、クラブハウスの勢いは急激に失速したものの、多くの人が改めて「音声」が秘める力に気づいた。 テクノロジーはメディアが一方的に情報を発信する環境を一変させた。ツイッターは文字、YouTubeは動画という手段で、個人による情報発信を可能にした。もちろん、音声もまた、比較的古くからポッドキャストなどの情報発信手段はあったものの、利用は一部にとどまっていた。 だが、2019年には音楽ストリーミングサービスを手がけるスウェーデンのSpotify(スポティファイ)がポッドキャスト関連企業の米Gimlet Media(ギムレット・メディア)と米Anchor(アンカー)を買収。今年に入ってからは米ツイッターが、同じくソーシャルポッドキャストサービスを手がける米B

    聞こえ始めたVoiceTechの鼓動
  • 機械との対話が自然かつ滑らかに、ヤマハの自然応答技術を電子工作基板に搭載

    HEARTalkは、人間と機械の会話を自然に行うためにヤマハが開発した独自技術だ。人間の呼びかけの音楽的要素である韻律(発話の声の強弱、長短、高低、間、抑揚)をリアルタイムに解析し、応答に適した自然な韻律を導出する。従来は単調だった機械の応答音声が、人間にとって自然な、強さ、抑揚、間、高さで返ってくるようになるという。 HEARTalk UU-001は、電子楽器「ウダー」を製作する宇田道信氏が企画を担当しており、自作の工作機械やロボットにHEARTalkを組み込むための電子工作向け基板となっている。 HEARTalk UU-001の電源を入れると、入力された音声を解析し、応答に適した自然な韻律の音声を出力する。音声入力は、ボード上に実装されているマイクに向かって話しかける形で行う。音声出力は、同梱のスピーカー(接続もしくははんだ付けが必要)とヘッドフォン端子からの出力に対応している。電源は

    機械との対話が自然かつ滑らかに、ヤマハの自然応答技術を電子工作基板に搭載
  • ケータイを「仮想アシスタント」に変身させる「Siri」

    米サンノゼ市で開催されているセマンティック関連技術のイベント「2009 Semantic Technology Conference」の基調講演で,米Siri, Inc.,Founder兼CTOのTom Gruber氏は,同社(同社のWebサイト)が開発中の「Siri」と呼ぶ「仮想アシスタント」技術を紹介した。米研究開発企業SRI International社が開発した技術に基づくSiriは,声認識によってユーザーの希望するタスクを判別するクライアント・ソフトとWebサービスから構成される。「Siriで最も重要な機能は,ユーザーの自然言語を理解して,希望するタスクを絞ること」(Gruber氏)。 Siriは,ユーザーが携帯電話機を使って,日常生活で頻繁に行う飛行機の到着時刻の確認やレストランの予約といったタスクを支援する。例えば,ユーザーがSiriのクライアント・ソフトに搭載した携帯電話機

    ケータイを「仮想アシスタント」に変身させる「Siri」
  • 放送禁止用語をリアルタイムで消す技術、MSが特許取得

    Microsoftが、音声データを自動的に検閲して、不適切な言葉を聞こえなくする技術の特許を取得したことが明らかになった。 米特許商標局が公開した特許公報によると、この特許は「放送向け音声データの自動検閲」というタイトルで、2004年10月に出願された。 この技術は、音声データを検閲フィルターで自動的に処理し、不適切な単語やフレーズが分からないように、あるいは聞こえないように改変するというもの。音声データはリアルタイム処理も一括処理も可能という。 検閲フィルターは、音素(言語の音声を構成する最小単位)や単語を分析し、不適切な言葉を構成する音素や単語と一致するか比較する。一致する可能性が一定の値を超えると、音声データストリームを改変する。不適切な部分は、音量を下げる、一部を消す、不明瞭な音声信号で上書きする、問題のない言葉に置き換えるなどの処理をするとしている。 現在、テレビやラジオでは一

    放送禁止用語をリアルタイムで消す技術、MSが特許取得
  • Google,音声認識技術を用いた動画検索サービスGoogle Audio Indexing

    Googleは米国時間2008年9月16日,同社のテスト・サイト「Google Labs」で,音声認識技術を用いた動画検索サービス「Google Audio Indexing」を開始した。動画共有サイト「YouTube」で公開されている米政治家の動画の中から発言内容を検索できる。 このサービスで検索を行うと,指定の検索語が発言に登場する動画の一覧が画面の左側に表示される。その中から目的の動画を選択すると,画面右側のYouTubeプレイヤーに指定の動画が表示され,その場で再生できる。検索語が登場する部分だけを再生することも可能だ。 同社は今年7月,同様の機能を持つiGoogle用のガジェット「Google Elections Video Search」を公開していた。今回開始したGoogle Audio Indexingでは,動画の共有や,特定の動画内のみの検索などの新機能を搭載し,インタ

    Google,音声認識技術を用いた動画検索サービスGoogle Audio Indexing
  • NEC,携帯電話機上のプロセサのみで処理する自動通訳ソフトウエアを開発

    NECは,旅行時の会話を日語から英語へ翻訳できる携帯電話機向けの自動通訳ソフトウエアを開発したと発表した(発表資料)。2006年にNTTドコモから発売されたNEC製の携帯電話機 「SIMPURE N1」に試験搭載し,動作に成功したという。今回開発したソフトウエアは,外部のサーバーなどによる処理が不要で,携帯電話機向けのプロセサのみで動作する。携帯電話機に向かって日語を話すと,音声認識を使って日語の会話の内容をディスプレイ上に表示する。会話終了から音声認識の結果を表示するまでは1秒程度。その後,会話内容の翻訳を指示すると,1秒程度で英語への翻訳結果を表示する。 今回開発したソフトウエアは,音声認識エンジン,翻訳エンジン,音声認識エンジンと翻訳エンジンを制御するミドルウエアの3つで構成する。音声認識エンジンには,NECが独自に開発した音声認識方式に基づくものを採用。携帯電話機に搭載するプ

    NEC,携帯電話機上のプロセサのみで処理する自動通訳ソフトウエアを開発
  • BUG、字幕変換サービスを開始

    ビー・ユー・ジーはこのほど、音声を字幕に変換するサービスを開始した。 通常の音声認識技術では、話者の特徴をコンピュータに記憶させることで認識率を高めるが、同社のサービスは逆の発想で作られたシステム。話者の話す内容を同時に特定の人が復唱することによって音声の特徴を揃え、認識率を高めるという。これまでの試験運用の結果を生かし、事業として格的に取り組む。 音声同時字幕サービスは、話した言葉をコンピュータを使って音声認識し、同時に文字データを出力するもの。 同社のサービスでは、アナウンサーなど特定の訓練をした人が話者の話す内容を同時に復唱し、コンピュータに認識させて認識率を高める。さらに、コンピュータから出力された文字データは、同時修正者によって誤認識された箇所を直ちに修正することで精度の高い文字データを作成できるという。 字幕精度は93%〜98%程度で、平均的には95%。発話から字幕表示までの

    BUG、字幕変換サービスを開始
  • Expired

    Expired:掲載期限切れです この記事は,ロイター・ジャパンとの契約の掲載期限(30日間)を過ぎましたのでサーバから削除しました。 このページは20秒後にNews トップページに自動的に切り替わります。

  • 電話スパムに対抗する技術をNECが開発

    NECは1月26日、IP電話によるスパム攻撃(SPIT:SPAM over IP Telephony)を防止する技術「VoIP SEAL」を開発したと発表した。NECは今後、同技術の早期実用化を目指す。 IP電話はブロードバンド環境の整備に伴い、企業/家庭を問わず急速に普及しているが、その使いやすさからアナログ電話同様に自動広告通話やフィッシング詐欺(ビッシング:VoIP版フィッシング)といったSPITにさらされる可能性も大きくなってきた。SPITは、ボットネットなどでスパム生成ツールを動作させることで容易に実施でき、ユーザーは迷惑メール以上の被害を受けることになる。 VoIP SEALでは、人の電話とスパム生成ツールによる電話の判別を、対話プロセスで通話の相手が人か機械かを判断するチューリングテストによって行う。IP電話が接続してユーザー間の通話が開始される前に通話時の応答パターンに基づ

    電話スパムに対抗する技術をNECが開発
  • 1