タグ

2008年10月7日のブックマーク (1件)

  • 2000時間の録音データから3秒でキーワード検索 日立の新技術

    日立製作所はこのほど、大規模な録音データの中から、指定したキーワードを含む音声を高速に検索する技術を開発したと発表した。録音データとキーワードの「音素記号」を照合して高速に検索した上で、それぞれの「音声特徴量」も照合し、精密に再検索する。2000時間の録音データなら3秒で音声を検索できるとしている。 まず、録音データを音素(音声の基単位)の記号列(音素記号)に変換した上で、音素がどのタイミングで出現するかをインデックス化し、検索キーワードの音素と照合する。インデックス処理を最適化し、不要なインデックスを削除することで検索を高速化した。 その上で、録音データと検索したいキーワードの「音声特徴量」をそれぞれ分析・照合する。音声特徴量とは、音韻を特徴づける周波数成分などを数値化したもの。音声特徴量を使った検索処理を、段階的に精度を高めながら3回行うことで、高精度に検索するという。 コールセンタ

    2000時間の録音データから3秒でキーワード検索 日立の新技術
    ysfm
    ysfm 2008/10/07
    今来栖がヒット!