タグ

ITProとvoiceに関するcx20のブックマーク (6)

  • GoogleがYouTube動画に自動で字幕,日本語への翻訳も可能に

    Googleは米国時間2009年11月19日,同社が運営する動画投稿サイト「YouTube」で,動画再生時に自動で字幕を付ける機能「Auto-caps(automatic captions)」を追加と発表した。 これまで字幕を表示するには,動画の投稿と同時に字幕を記述したファイルをアップロードしなければならなかった。この方法ではユーザーに負担がかかり,YouTubeにある膨大な動画すべてに字幕を付けるのは困難と判断。機械生成による方法も採用することにした。 この機能は,同社の自動音声認識技術を利用している。映画などの字幕と同じく人物がまだ話し終えていないセリフもあらかじめ表示する。また字幕は翻訳することもできる。約50の言語に対応しており日語表示も可能。利用するには,画面右下にあるアイコンにマウスを持っていくと表示される「Transcribe Audio」や「Translate Cap

    GoogleがYouTube動画に自動で字幕,日本語への翻訳も可能に
  • みんなで作る「歌声データベース」――ウタゴエの「うたごえ検索」がリニューアル

    ウタゴエは2007年3月30日、メロディーを口ずさんで音楽を検索できる「うたごえ検索」をリニューアルしたと発表した。リニューアルの特徴は、ユーザーの歌声を録音し、データベース化できるようになったこと。これを活用し、ユーザー間のコミュニケーション促進、検索精度の向上といったサービスの拡充につなげる。 うたごえ検索は、ユーザーの歌声を基に類似の楽曲を探し出す機能。同社の自社開発技術で実現しており、携帯電話向けサービス「はなうた検索」として商用化されている。パソコン向けには、同社が運営するコミュニティーサイト「Looc」において実験的に公開中だ。 今回リニューアルを実施したのは、パソコン向けのうたごえ検索。Windows以外のOSに対応したほか、ユーザーの歌声を録音して独自のデータに変換し、蓄積できるようになった。同時に、このデータを用いてLooc上で音楽当てクイズを実施できる機能を追加した。

    みんなで作る「歌声データベース」――ウタゴエの「うたごえ検索」がリニューアル
  • NuanceがPDFソフトの最新版をリリース,「PDF文書をオーディオ・ファイルに変換」

    音声認識技術の米Nuance Communicationsは,企業向けPDF文書作成ソフトの最新版「ScanSoft PDF Converter Professional 4」を,米国時間8月21日にリリースした。 最新版は,電子文書の長期保存規格「PDF/A」に準拠するほか,2007年にリリース予定「Office 2007」や「Windows Vista」にも対応する。「Word」「Excel」「WordPerfect」などへの変換精度を向上し,表やチャート,画像,書式などを保持したままファイル変換できるようにした。また,PDF文書を入力可能な書式に変換する「FormTyper」機能を備える。 テキスト読み上げ機能も備えており,PDF文書をWAVオーディオ・ファイルに変換しポッドキャストなどで利用できる。米メディア(CNET News.com)によると,現在は男性の声による読み上げしかで

    NuanceがPDFソフトの最新版をリリース,「PDF文書をオーディオ・ファイルに変換」
  • 米Google,検索エンジンの音声インタフェースに関する米国特許を取得

    Googleは,検索エンジンの音声インタフェースに関する特許(米国特許番号7,027,987)を取得した。件名は「Voice interface for a search engine」で,2001年2月7日に申請し,2006年4月11日に成立した。20件のクレームから成る。 内容は,音声による検索クエリーから検索結果を提供するシステムに関するもの。ユーザーが検索キーワードを発話すると,1つ以上の認識仮説を引き出し,その仮説(条件)と組み合わせたbooleanクエリーを構成する。条件付きbooleanクエリーを検索システムに渡し,検索を実行してユーザーに検索結果を提示する仕組み。 申請が5年前であることから,同社が長い間,検索エンジン向け音声技術に取り組んでいたことがわかる。 米メディアの報道(CNET News.com)によると,Google技術ディレクタのCraig Silvers

    米Google,検索エンジンの音声インタフェースに関する米国特許を取得
  • 米IBM,Eclipse向けのVoiceXMLアプリ開発用APIを発表

    米IBMは,VoiceXML対応アプリケーション開発用のアプリケーション・プログラミング・インタフェース(API)を米国時間3月3日に発表した。Eclipse Foundationの音声対応ツール開発活動Voice Tools Projectの一環として開発したもの。 VoiceXMLは,World Wide Web Consortium(W3C)が策定しているXMLベースのWeb向け音声タグ仕様。文字ではなく音声を使用し,Webコンテンツ/サービスの利用を可能とする記述言語。コンテンツを音声対応ブラウザを介してユーザーの電話機などに伝えるためのレイアウトや構造を定義する。 VoiceXMLを使用すると,音声合成,音声のデジタル化,音声認識DTMF(プッシュホンのトーン信号)入力,音声の録音,通話,話者が変わる会話などに対応する音声対話ダイアログの作成が可能になるという。 Voice T

    米IBM,Eclipse向けのVoiceXMLアプリ開発用APIを発表
  • ITPro:

  • 1