人間の知の創造・伝達の多くは、音声によるコミュニケーションによって行われています。 本分野では、人間どうしがやりとりを行う音声メディアを分析し、自動認識・理解した上で、インタラクションを行えるシステムの実現をめざします。 具体的には、会議や講演のような自然な話し言葉音声をテキスト化するシステム、複数の話者や音源などからなる音環境(や音楽)を解析するシステム、非言語情報も統合しながら自然な対話が行える人間型ロボットなどの研究に取り組みます。 研究室紹介 (PDF カラー1ページ) 研究室紹介 (PDF モノクロ1ページ) 話し言葉の音声認識・理解 深層学習によるEnd-to-Endモデル...日本音響学会誌2018年7月号 (PDFファイル) 大規模事前学習モデルに基づく音声認識...日本音響学会誌2023年9月号 (PDFファイル) 音声認識による講演・講義の字幕付与...日本音響学会誌2
次のキネクトの凄さがまだイマイチぴんとこない。もしそんな方がいても、このニュースで考えが変わるかもしれません。今度のキネクトは、なんと二人の人間が同時に喋っている内容を聞き分けて音声認識できるようになるんだそうですよ。 Polygonの報道によると、マイクロソフトのフィル・ハリソン(Phil Harrison)は、ロンドンで行われたEurogamer Expoの講演でこの件を発表。Xbox Oneでは、たとえ暗闇の中でも口の動きが分かるようになり、二人の異なるプレイヤーが同時に話したことをまとめて処理できるようになります。 ほかにも、6人のプレイヤーに含まれる25個の関節が検知できたり、実際にコントローラーを操作している人を見分けたり、1,400個に上るポイントを顔にマッピングしたりできますが、どれもすごい機能ですよね。キネクトのセンサーは著しく改良されるので、どんな使い方ができるか楽しみ
Chrome書記は、Google Chromeブラウザで動作する音声認識機能を使い、音声をテキスト化するWEBアプリ。最新のChromeとマイクが必要です。 マイクに向かって話した言葉がテキストに変換されます。Google音声認識は非常に精度が高く、メリハリよく丁寧に話すことによって、キーボードに匹敵する速度で文字入力が行えます。 印刷物の文字起こし等にお使いください。 使い方 サンプルで桃太郎を用意しました。音声認識ボタンを押してから発声してみてください。一気に長く読まないように、適度に間を置くことで認識率を上げることができます。長く間があくと自動的に認識処理は終了します。 間によって文章は区切られますが、清書ボタンでテキストエリアに連結することができます。文章をクリックで他の候補の表示、置き換えもできます。 サンプル むかしむかし、あるところに、おじいさんとおばあさんが住んでいました。
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く