タグ

音声に関するrjjのブックマーク (15)

  • Embodied AI Exoplanets Demo - 1080p on Vimeo

  • 「ヤニー」と「ローレル」どちらに聞こえる? 大論争でSNS二分

    米首都ワシントンで、音に耳をそばだてる女性(2018年5月16日撮影、資料写真)。(c)AFP PHOTO / Eric BARADAT 【5月17日 AFP】「Yanny(ヤニー)」と「Laurel(ローレル)」、あなたはどちらに聞こえる?──2音節のみの短い音声を添えてこう問いかけるツイッター(Twitter)の投稿が、インターネット上で爆発的な騒ぎを巻き起こしている。ユーザーたちの回答は真っ二つに分かれ、両者とも譲る気配はない。 16日付の米紙ニューヨーク・タイムズ(New York Times)によると、この音声はもともと米ジョージア州の高校生ローランド・サボー(Roland Szabo)さん(18)が学校の課題でオンラインの語彙(ごい)辞典を使用中に見つけて録音し、ソーシャルニュースサイトのレディット(Reddit)に投稿したもの。 級友たちに聞かせたところ、「Yanny」と「L

    「ヤニー」と「ローレル」どちらに聞こえる? 大論争でSNS二分
    rjj
    rjj 2018/05/18
    最初の1回だけ高いダミ声?でヤニーって聞こえたけど、あとは男声でローレルにしか聞こえなくなった。やっぱ探偵ナイトスクープ思い出すな。
  • [速報]AIが人間と自然な会話をし、電話で美容院やレストランを予約。Googleがデモを公開。Google I/O 2018

    [速報]AIが人間と自然な会話をし、電話で美容院やレストランを予約。Googleがデモを公開。Google I/O 2018 Googleは、サンフランシスコで開催中のイベント「Google I/O 2018」において、人間のように自然に会話をするAIによって電話で美容院やレストランを予約するデモを公開しました。 Google I/O初日の基調講演でもっとも会場が盛り上がったのは、Googleが「Google Duplex」と呼ぶAI技術を用いて、AIが実際に美容院やレストランに電話をかけ、予約を行う音声を公開した場面でした。 シナリオとしては、ユーザーがGoogle Assistantに「来週の火曜日、10時から12時のあいだで美容院を予約して」と依頼。 するとGoogle Assistantは依頼を受けてGoogle Duplexの機能を用い、バックグラウンドで美容院を予約すべく電話

    [速報]AIが人間と自然な会話をし、電話で美容院やレストランを予約。Googleがデモを公開。Google I/O 2018
    rjj
    rjj 2018/05/09
    笑った。
  • Audio Adversarial Examples

    Figure from our paper: given any waveform, we can modify it slightly to produce another (similar) waveform that transcribes as any different target phrase. We have constructed targeted audio adversarial examples on speech-to-text transcription neural networks: given an arbitrary waveform, we can make a small perturbation that when added to the original waveform causes it to transcribe as any phras

  • マイクロソフト、音声認識の単語誤り率で新記録--Microsoft Research報告

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 人間のように音声を理解する音声認識製品の開発でAmazonAppleGoogle、IBMなどと競合するMicrosoftが、音声認識の誤り率の低さで世界記録を達成したと発表した。 Microsoftによると、Microsoft Researchの音声科学者は業界標準の評価の下で、単語誤り率(WER)6.3%を記録したという。利用したのは、将来的に「Cortana」を強化する音声認識技術だ。 これまで記録を保持していたのはIBMの「Watson」チームで、WERは6.9%だった。IBMは2015年に達成した8%という記録を更新したばかりだった。 MicrosoftとIBMは、米国時間9月12日までサンフランシスコで開催されたカンファレ

    マイクロソフト、音声認識の単語誤り率で新記録--Microsoft Research報告
    rjj
    rjj 2016/09/16
    「IBMが約4%と想定する、人間ほどの正確さ」人間、4%も誤認識してるんかい。 機械も早くカクテルパーティー効果というか聖徳太子みたいな10音声同時認識ができるようになってくれ。(需要は知らん。)
  • WaveNet: A Generative Model for Raw Audio | DeepMind

    Research WaveNet: A generative model for raw audio Published 8 September 2016 Authors Aäron van den Oord, Sander Dieleman This post presents WaveNet, a deep generative model of raw audio waveforms. We show that WaveNets are able to generate speech which mimics any human voice and which sounds more natural than the best existing Text-to-Speech systems, reducing the gap with human performance by ove

    WaveNet: A Generative Model for Raw Audio | DeepMind
  • 大語彙連続音声認識システムJulius

    A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

    大語彙連続音声認識システムJulius
    rjj
    rjj 2012/03/26
  • 無音声認識の可能性 - A Successful Failure

    音声入力がなかなか普及しない理由として、発話しなければならないと言う点がある。周りに誰もいない環境ならそれでも良いが、周りに他人がいる場合に独り言のように発話するのはなかなか難しい。周りの人に迷惑になることも問題だが、入力内容が周りの人に知れるということも問題である。さらに騒音下だとただでさえ悪い音声認識率がさらに下がると言う問題もある。音声認識の最大の欠点は声を出すことにあったのだ。 奈良先端科学技術大学院大学音情報処理学講座 鹿野研究室で開発された「非可聴つぶやき認識(無音声認識)」はこれらの課題を解決し、音声入力の利便性を大きく向上させる可能性をもつ技術である。非可聴つぶやき認識は、囁き声よりも小さな第三者に聴取不能な声帯の振動を伴わないつぶやき(Non-Audible Murmur:NAM)の体内伝導音を、耳の裏側に装着する身体表接着型マイクロフォンによって認識するものだ(無音声認

    無音声認識の可能性 - A Successful Failure
    rjj
    rjj 2012/03/26
    古い記事だが。
  • 目grep入門 +解説

    目grep入門があまりにもKernelVM::入門だという指摘があったため、解説をつけてよりstd::入門に近づけてみました。Read less

    目grep入門 +解説
  • サウンドスペクトログラムに画像を埋め込む - 人工知能に関する断創録

    Pythonで音声信号処理(2011/05/14) 今回は、スペクトログラムを使って遊んでみました。サウンドスペクトログラムって何って人はこちらへ。Pythonでサウンドスペクトログラム(2011/10/1)。 なんとスペクトログラムに任意の画像を埋め込んだ音声が作れるとのこと。こんなふうに。 Aphex TwinというミュージシャンのEquationという曲に埋め込まれた画像だそうです。こんな風に画像をスペクトログラムに簡単に埋め込むツールをいくつか見つけたので遊んでみます。 Coagula Coagulaというツールで画像をスペクトログラムに埋め込んだ音声が作れます。Coagulaを起動したらキャンバスが出てくるのでそこに任意の絵を描きます。F5キーで画像をスペクトログラムに変換し、FileメニューのSave Sound As...でWAVEファイルとして音声を保存できます。WAVEフ

    サウンドスペクトログラムに画像を埋め込む - 人工知能に関する断創録
  • Haskellで作る超コンパクト音声認識システム

    音声認識人工知能の分野の中でも独自の進化をとげた分野で,良くも悪くもガラパゴス的と言われたりします. 特に大語彙連続音声認識を実現する既存のソフトウエアは大規模かつ複雑で,音声認識の専門家でさえも全体を理解して改良を加えることは必ずしも容易ではありません.このことは近隣分野と音声認識コミュニティを分断する障壁ともなっています. しかし音声認識を実現するアルゴリズム自体は,基的には実はそれほど難解なものではありません.ソフトウエアが複雑なのは,多分に計算量やメモリ量削減のための様々な工夫やCに代表される手続き型プログラミング言語の抽象化能力の限界に起因しています. 他方,ソフトウエア工学の分野では複雑な処理をコンパクトに記述可能な次世代プログラミングパラダイムとして,純粋関数型言語が研究されています.純粋関数型言語は長らく研究段階に留まっていましたが,近年はHaskellなど実用性の高

    rjj
    rjj 2011/04/27
  • しゃべった内容を文章に変換する無料のiPhoneアプリ『Dragon Dictation』

    海外で先に公開され、その認識率の高さで話題となったiPhoneアプリ『Dragon Dictation 』がついに日語に対応。App Storeで無料で公開されています。 iPhoneに向かってしゃべった内容をテキストに変換してくれるので、タッチパネルでの文字入力が苦手なひとでも、素早くかつストレス無く大量のメモや長文メールを書くことができます。 アプリの初回起動時に、使用規約への承諾などを求められます。アドレス帳の連絡先をアップロードすると個人名の認識率が高くなるようですが、必須ではありません。 こちらが開発元によるデモ動画。 マイクからの音声入力をサーバーに送信して処理するため、Wi-FIまたは3G回線でネットワークに接続している必要があります。 使用法はいたってシンプルで、録音ボタンを押してマイクに向かってしゃべるだけです。 「完了」ボタンをタップするとデータがサーバーに送信され、

    しゃべった内容を文章に変換する無料のiPhoneアプリ『Dragon Dictation』
  • 言語の「起源と進化」を探る研究:「人間は言語の宿主にすぎない」 | WIRED VISION

    言語の「起源と進化」を探る研究:「人間は言語の宿主にすぎない」 2008年8月 7日 サイエンス・テクノロジー コメント: トラックバック (0) Brandon Keim Photo: Alpha 遺伝子のようなふるまいを見せるミームや、有機体のように進化する文化に関する議論はにぎやかだ。[ミームは動物行動学者リチャード・ドーキンス氏が唱えた概念で、「文化の複製遺伝子」。文化内の「情報」が非遺伝的に承継され「自然選択」される様子を、ダーウィン進化論を基盤とした遺伝子の進化の過程になぞらえたとき、遺伝子に相当する仮想の主体] しかし今のところ、生物学的なものではない進化に関する学問的な理論は存在していない。だが、こうした状況も、変化する可能性が出てきた。 7月28日(米国時間)付の『米国科学アカデミー紀要』(PNAS)に掲載された研究論文の中で、言語学者たちは、実験環境で人工的に作成された

  • 音声認識のしくみ

    音声認識を紹介するページ とにかくここでは、 だらだらと「音声認識」というモノを紹介します。 全体が(ほぼ)このページ一枚に収まっています。 ところどころにリンクがありますが、 そのリンク先には、 難しい話やこぼれ話みたいなものがちょこちょことあります。 ところで、話を簡単にするために、 ちょっと嘘を混ぜています。 そうでないと、ものすごく複雑な話になるので。 音声認識ってなにさ 簡単に言ってしまえば、 人間が喋った声を機械が文字に直すことです。 図で描くとこんな感じです。 左側が音声波形(つまり、声を図に表している)で、 右側がそれをひらがなに直したものです。 左側の音声波形を少し詳しく見てみる 人間は耳で音を聞きますが、 機械はマイクで音を聞きます。 そして、マイクで収録された音をそのまま表示させると、 下のような感じになります。 横軸が時刻で、縦軸が振幅です。 音声というのは、ようす

    rjj
    rjj 2008/06/13
  • Start | 和歌山大学メディアインテリジェンス研究室

    和歌山大学メディアインテリジェンス研究室(西村竜一研究室)† 研究室では、音声や画像、動画、自然言語、センサなどの「メディア」を活用した認識・理解の知的技術によって、人と人、人と機械の協働を豊かなものにするための教育・研究を行います。 2019年度から活動している研究室です。 研究室の学部生は、システム工学部 メディアデザインメジャーに所属しています。大学院生の所属は、システム工学研究科 知的モデリングクラスタです。 なお、研究室は、西村が所属(担当)するデータ・インテリジェンス教育研究部門及び学生自主創造支援部門(クリエ)とも協働することで教育・研究活動を進めています。 今後は、社会インフォマティクス学環の学生の受入も行う予定です。 ↑ お知らせ† 2023/12/9 大学院生(M2)の日田さんが国立研究開発法人情報通信研究機構(NICT)の研究員みなさまと共著で発表した『複数話者

  • 1