[B! 音声認識] mfunakiのブックマーク

無数にある想定外の問いかけが音声対話システムを難しくする

本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識を利用した対話システムの構成を紹介する。対話システムには音声理解も必要今回は、音声認識を利用した対話システムの構成を紹介する。音声対話システムは、音声を理解して適切に応答するシステムである。学術的には音声認識は音声を文字にする部分までで、言語的な解析や意図の理解は音声理解の領域である。音声対話システムでは、例えばユーザーが「東京から京都まで」と言った時に、出発地が東京で目的地は京都であると理解し、適切に応答することが求められる。音声対話システムの一般的な構成を図6に示した。まず音声を文字にする「音声認識」部があり、用途に応じて意味や概念などを理解する「言語理解」部がある。例えば天気を案内するシステムでは、「XXの天気」と言われたらXXを特定できなければならない

mfunaki 2017/11/01

音声認識

リンク

音声認識の基本のキ、確率的な枠組みに基づく

日経エレクトロニクス2014年5月26日号のpp.88-95「実用化進む音声認識、システムの構成要素を概観」を分割転載した中編です。前編はこちら本連載では、実用化が急速に進んでいる音声認識技術の基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識の原理を説明する。発話された単語列を確率的に推定するここからは、音声認識の原理を説明していく。あらゆる教科書に書かれているように、音声認識は確率的な枠組みに基づいている（図3）。すなわち、入力音声を分析して得られる特徴量Xに対して、事後確率p（W│X)が最大となる単語列Wを見つける問題として定式化できる。直感的に言えば、聞き取った音（X）に対して一番もっともらしい単語列（W）を求める問題と言える。つまり事後確率p（W│X)とは、Xを観測したときにWと言える確率のことである。

mfunaki 2017/11/01

音声認識

リンク

システムは複雑だが原理は単純、だから音声認識は面白い

最近になって実用化が急速に進んでいる音声認識技術。本連載では、その基礎から課題、最新動向を、実装・開発例を交えて解説していく。今回は、音声認識システムを構成する技術の概要と、主要な用途を紹介する。音声認識の研究は古く、筆者自身も研究を始めて間もなく25年がたつ。もっとも、その応用が急激に広がり出したのは最近である。2010年ごろから音声による検索やコンシェルジュサービスが携帯機器に搭載されるようになってきた。例えばNTTドコモの「しゃべってコンシェル」やiPhone向けの「Siri」などがある。マスメディアに取り上げられるなど社会の関心も高まっており、今後も発展が期待される分野である。複雑なシステムだが単純な原理音声認識は、非常に複雑なシステムだ。音声の周波数分析、つまり人間の耳が捉える音の特徴の解析から、パターン認識や言語処理、人工知能的な知識表現や解の探索といった処理も必要になる

mfunaki 2017/11/01

音声認識

リンク

オラクル、ニュアンスとの提携を発表--音声技術をモバイルアプリで利用へ

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができますオラクルのさまざまな企業向けモバイルアプリで、Nuance Communicationsの音声機能が利用できるようになる。 OracleとNuance Communicationsは米国時間5月21日、両社間での多年度契約の締結を発表した。この契約により、Oracleは「Nuance Cloud Services」を利用し、ERP（企業資源計画）やSCM（サプライチェーン管理）、CRM（顧客関係管理）、HCM（人材管理）向けのOracleアプリや、「Oracle Eloqua Marketing Cloud Service」「Oracle RightNow Cloud Service」「Oracle Taleo Cloud Servic

mfunaki 2014/08/18

リンク

認識エンジンの“カスタマイズ”が強み――Nuanceが目指す音声認識サービスの進化形

認識エンジンの“カスタマイズ”が強み――Nuanceが目指す音声認識サービスの進化形：Dragon Dictation／Searchも世界で好評（1/2 ページ）文書管理ソフトや携帯電話・自動車、コールセンターなど幅広い分野で音声認識事業を展開しているNuance Communications。同社が配信中のiPhoneアプリ「Dragon Dictation」と「Dragon Search」は日本を含む世界で好評だ。同社は今後、どのような音声認識サービスを提供していくのか。音声認識ソリューションの開発を進めている米Nuance Communications（以下、Nuance）が、2010年12月にiPhone向け音声認識アプリ「Dragon Dictation／Search」をリリースしてから約半年が経過した。今後の音声認識は「意味を理解して、判断するような形に進化していく」と同社

mfunaki 2011/06/15

リンク

新しい音声技術を搭載した｢iOS 5｣のコンセプトビデオ - 気になる、記になる…

管理人：Taisyo 海外の情報＆噂サイトで報じられている Microsoft (Windows) や Apple (MacやiOSデバイス) の最新情報を翻訳(ミスも多いですが…)してUPしています。当サイトのメインページや個別記事へのリンク、コメント、トラックバックは自由に行って下さい。ご連絡の必要はございません。ある程度確認はしていますが、InternetExplorerでは一部正しく表示されない部分があり、推薦はSafariとなっています。ニュース：総合(982) ニュース：携帯電話(346) 気になるニュース(488) ニュース：ブラウザ(204) ミニノート関連(Eee PCなど)(260) Microsoft：総合(789) Microsoft：各種アップデータ(98) Windows Vista：ニュース(512) Windows Vista：レビュー(27) Wi

mfunaki 2011/05/17

リンク

アップル、「iOS」向け音声関連機能を強化か--求人情報で明らかに

文：Joe Aimonetti（Special to CNET News）翻訳校正：湯本牧子、福岡洋一2011年03月07日 11時04分 AppleInsiderが注目した最近の求人情報によると、Appleは音声コントロールと同期を手がける部門の強化に役立つ人材を探している。このことは、「iPhone」「iPod touch」「iPad」の今後の方向性を示唆しているのかもしれない。 Appleが音声コントロールの専門家を募集するのは今回が初めてではない。2010年12月には、「音声認識、『iOS』ソフトウェアの音声関連アプリケーション開発、音声研究など、音声関連技術を専門」とする新たな人材を探していた。 Appleが今回採用しようとしているのは、iOS搭載機器の音声コントロール機能開発に従事する3人の「iOS Speech Operations Engineer」だ。同社が求める専門ス

mfunaki 2011/03/07

リンク

旭化成グループキャリア採用サイト

mfunaki 2010/04/09

旭化成の音声認識エンジンVOREROで中国語関係の動きがあるようだ

音声認識

リンク

アジア学生起業家ファンド「I-SHIN」、音声関連アプリを開発するEagleに出資

ngi groupは3月18日、アエリアと共同で運営するアジア学生起業家ファンド「I-SHIN 投資事業有限責任組合」（I-SHINファンド）が、音声関連アプリケーションを開発するEagleに出資したことを発表した。金額は公開していないが、「シード期ということもあり、2月に数百万円の前半程度の出資をした」（ngi group）という。 Eagleは1月に設立したばかり。代表取締役の藤永真至氏は学生起業家ではないが、取締役に東京工業大学の留学生Joef Novak氏が参画することから同ファンドの出資対象となった。iPhoneやAndroid対応携帯電話などのデバイス向けに、音声を利用したアプリケーションの企画や開発、販売を手掛ける。第1弾の製品として、iPhone向けアプリケーション「TalkWriter」を日本および北米のApp Storeで提供中だ。 TalkWriterは音声認識技術を

mfunaki 2010/03/24

英語だけですがiPhoneでの音声認識。課金方法以外は目新しくはないような気がするが一応チェック

リンク

ニュアンス、「Mac」向け音声認識ソフトウェアを手がけるMacSpeechを買収

Nuance Communicationsは米国時間2月16日、「Mac」ユーザー向けに音声ディクテーションおよび音声認識ソフトウェアを提供するMacSpeechを買収したと発表した。 Nuanceは、Mac環境とMacユーザーに関するMacSpeechの経験を踏まえ、拡大を続けるMac市場へ進出する重要なチャンスとして、今回の買収を求めた。Nuanceによると、同社の「Dragon」シリーズ製品のブランドと知名度、マーケティング、研究開発をMacSpeechシリーズ製品にも応用し、Macユーザーのシェアをさらに拡大していく計画だという。MacSpeechは以前より、同社の「MacSpeech Dictate」ソフトウェアでDragon音声技術エンジンをライセンス使用している。 Nuanceのシニアバイスプレジデントで、Dragon担当ゼネラルマネージャーでもあるPeter Mahoney

mfunaki 2010/02/18

リンク

音声認識で人間並みのコミュニケーションが可能に――「AmiVoice」の未来 (1/2) - ITmedia Mobile

アドバンスト・メディアは同社の音声認識技術「AmiVoice」を用いて、医療やビジネスソリューション、コールセンター、教育、議事録などさまざまな分野で“音声認識”を浸透させてきた。モバイルでは、同社のらくらくホン向け「音声入力メール」やiPhone向け「音声認識メール」のほか、GoogleもiPhoneやAndroid端末向けに音声検索を提供。音声認識は文字入力に変わる新たなユーザーインタフェースとして身近な存在になりつつある。音声認識技術は今後どのような進化を遂げ、どのようなビジネスモデルが創出されるのか。同社が1月22日に実施した技術・戦略説明会で、その詳細を明かした。今後は機械が人間並みのコミュニケーション能力を持つアドバンスト・メディア代表取締役会長の鈴木清幸氏は、「これまでの音声認識技術は機械中心だったが、今後は人間中心に回帰する」と話し、現在が転換期であることを示唆した

mfunaki 2010/01/25

リンク

大和総研/ スマートフォンの音声認識技術に触れて感じたキャズム

先日、携帯電話をアップルのスマートフォンであるiPhone に乗り換え、音声認識技術に触れた。音声認識技術とは、人が発生した音声を機械が認識し入力する技術のことである。以前から企業向けにコールセンターの会話記録や議事録作成等で利用されていたが、ここ数年でスマートフォンを含む携帯電話で一般向けに利用するサービスが増えてきている。私が実際に利用したiPhoneの音声認識技術のサービスは、アップルが提供する、「○○（氏名）に電話」と発声すると電話帳から一致する氏名の電話番号へ発信する機能と、Googleが提供する、音声入力によるインターネット検索機能（※１）の２つである。両機能とも音声での入力のため、急いで歩いている時などキーを確認しての入力が不自由な状況で使い勝手の良さがある。さらに後者のGoogle音声検索は、街中で店の場所を調べる際に利用したのだが、「○○区○○××の××の××」と発声す

mfunaki 2010/01/15

音声認識に関わるキャズムと対象の絞り込み

音声認識

リンク

大語彙連続音声認識システムJulius

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?

mfunaki 2010/01/13

音声認識

リンク

ニュアンスコミュニケーションズ DRAGONディクテーションアプリ(英語版)、App Storeでダウンロード開始! ～iPhone上でのメールやSMSを音声で簡単入力!　～

mfunaki 2009/12/15

iTunes Storeの米国版のみで提供。Contactsをサーバにuploadしてしまうので注意。

リンク

「オープン」な開発環境を提供する意外な例 - 日経エレクトロニクス - Tech-On！

携帯電話機で使われるソフトウエア・アプリケーション（アプリ）は今や，誰でも作れる時代になりつつある。この事実に目覚めた欧米の携帯電話機メーカーや携帯電話機向けソフトウエア・ベンダー，携帯電話事業者は，アプリ開発者を引き付けるために動き始めた。彼らが繰り出す手法の一つは，端末およびネットワークの開発リソースを開発者にオープンするということである。実はこうした流れは，携帯電話以外の分野にも広がっている。例えば自動車。米Ford Motor Co.が開発した技術の一つに，音声認識を採用する自動車向けの情報・通信プラットフォーム技術「SYNC」（同技術のWebサイト）がある。SYNCによって，車載システムと運転者の携帯電話機をBluetoothによって接続できる。この機能を拡充するために，Ford社はアプリ開発者に対してSYNCのAPIを公開することを検討している。米国で人気のオンライン・ラジ

mfunaki 2009/12/02

リンク

音声翻訳を実現した初のiPhoneアプリ『Jibbigo』がApp Storeに登場

音声翻訳(Speech To Speech)に対応したアプリがApp Storeにリリースされています。この『Jibbigo Speech Translator English Spanish 』というアプリは、英語とスペイン語の双方向の翻訳に対応し、iPhoneのマイクに向かって話した音声を認識。自動翻訳した内容をスピーカーから発声します。カーネギーメロン大を中心に20年に渡る研究で生まれた技術で、音声翻訳の研究者 Dr. Alexander Waibel氏が開発に携わったようです。翻訳エンジンと40,000語の辞書をアプリに内蔵し、使用する際にネットワーク接続を必要としません。翻訳アプリは旅行先でこそ威力を発揮するので、高いローミング・チャージを気することなく使えるのは便利ではないでしょうか。デモの動画を見る限りでは、翻訳された英語の発音がなめらか過ぎて不自然な気がするものの、

mfunaki 2009/11/05

リンク

特集：音声認識・合成と自然言語処理の研究開発動向

３．特集：音声認識・合成と自然言語処理の研究開発動向　 −人に優しいヒューマンインタフェース実現への課題− 情報通信ユニット　　亘理　誠夫 3.1　はじめに音声認識合成技術や自然言語処理技術は人が自然な形で機器を使用するための入出力技術として昔から研究されてきた。人が機器を使うためのヒューマンインタフェース技術としては、初期のコンピュータでは、テキストによるコマンド入力とコンピュータからのテキストによるメッセージ出力であった。その後、アイコン表示とマウスによる選択というグラフィカルなインタフェースとなった。また、コンピュータグラフィックスの進歩、画像・音声・オーディオなどマルチメディア処理の進歩により多彩なインタフェースが出現している。さらに、使い勝手のよさを向上させるため、画面のデザイン、多種多様な入力デバイスの研究も進められている。しかし、依然として情報機器のヒューマンインタフェ

mfunaki 2009/10/01

リンク

［CEDEC 2009］大域照明や音声認識など，スクウェア・エニックスの「職人技」を不要にする自動化最前線

［CEDEC 2009］大域照明や音声認識など，スクウェア・エニックスの「職人技」を不要にする自動化最前線編集部：aueki スクウェア・エニックス研究開発部開発ディレクター藤井栄治氏 CEDEC最終日，スクウェア・エニックスの研究開発部による「Natural Expression　自然な表現を目指す」と題した講演が行われた。最初に登壇したのは開発ディレクターの藤井栄治氏。まずは，なぜNatural Expressionが重要なのかについて語った。 Natural Expressionを直訳すると，そのまま「自然な表現」となるのだが，Naturalの意味として「加工されていない」というものを強調していたことから，加工されていない→手を加えなくていいようなデータを自動生成していくことを目指すもののようだ。つまり，スクウェア・エニックス社内には，職人級の優秀なアーティストや技術者がいるわ

mfunaki 2009/09/07

音声認識

リンク

常識を超えた「超音声認識」も登場する――アドバンスト・メディアが切り開く音声認識の可能性

音声認識技術を開発しているアドバンスト・メディアが8月21日、技術・戦略説明会を開催。同社の音声認識技術「AmiVoice」の優位性や、ビジネスのロードマップについて説明した。アドバンスト・メディアは日本国内唯一の音声認識専門企業として1997年に創立。次世代音声認識技術のAmiVoiceを開発し、医療やモバイル、コールセンター、議会議事録、英語教育など、さまざまな分野で音声認識ソリューションを提供してきた。モバイルの分野では、「らくらくホンプレミアム」「らくらくホンベーシックII」「らくらくホン6」の「音声入力メール」や、iPhone向けの「音声認識メール」、NTTドコモ向けの「声ちぇき！DX」「乗換案内NEXT」などにAmiVoiceを提供している（アドバンスト・メディアの関連記事一覧も参照）。アドバンスト・メディアの概要（写真＝左）。アドバンスト・メディア代表取締役社長長