音だけでモノの形や位置を推定する――。NTTは31日、そんな研究成果を公開した。ディープラーニング(深層学習)を使い、複数のマイクで集音した情報から、モノの形や位置を推定するような研究だ。深層学習では入力した画像から新たな画像を生成するように、入力と出力の形態が一致する形が一般的だが、音声を入力し、画像を出力できるようになる。新たな可能性が広がりそうだ。31日から6月1日まで京都府精華町で開催
音だけでモノの形や位置を推定する――。NTTは31日、そんな研究成果を公開した。ディープラーニング(深層学習)を使い、複数のマイクで集音した情報から、モノの形や位置を推定するような研究だ。深層学習では入力した画像から新たな画像を生成するように、入力と出力の形態が一致する形が一般的だが、音声を入力し、画像を出力できるようになる。新たな可能性が広がりそうだ。31日から6月1日まで京都府精華町で開催
みずほ銀行は10月14日、米SimpleEmotion(SE)と、コールセンターにおけるオペレータの応対品質向上を目的に、同社の音声感情認識技術を同行のコールセンター業務へ試行導入することで合意したと発表した。同行によると、SEとの試行は国内銀行では初の試みという。 SE社は、スタンフォード大学生のMatthew Fernandez氏とマサチューセッツ工科大学生の Akash Krishnan氏が2012年に共同設立したベンチャー。 SEの音声感情認識技術は、人の声の周波数などから話者の感情を、どの言語でも識別可能としている。SEはその技術の活用領域をコールセンターの他、ロボティクスやヘルスケアなどの多様な分野とし、各社の業務特性に合ったソリューションの提供を行っているとのこと。 同行は2015年2月から、コールセンターにおいてIBM Watsonテクノロジーを導入し、より正確でよりスピー
NTTは1日、話し声の自然さを保ちながらイントネーションを自在に調整できる新しい音声合成技術を開発したと発表した。標準語で話した録音データを大阪弁のような印象に変換したり、アナウンサーが話すような聞き取りやすい声に調整したりすることが可能。がんで声帯を摘出した人が使う電気式人工咽頭や、ロボットの音声合成機能などへの応用が期待される。 「高い」「低い」などと表現される声の周波数は、声帯を伸縮させる甲状軟骨の動きによって制御されている。今回の技術は、音声データを解析し、甲状軟骨がどう動いたかを数値化・グラフ化する計算手法を確立したことで実現した。パソコンでグラフの「山」の高さや位置を調整すれば、人それぞれの声の特徴を保ちながら、異なる印象の話し方に変換できる。 同技術を開発したNTTコミュニケーション科学基礎研究所の亀岡弘和特別研究員は「入力したテキストから、人間のような自然な話し声を合成する
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く