音声は、人間が外界と通信するためのシンプルで効果的な方法ですが、より現実的な音声インタラクションには、視覚やテキストなどのマルチモーダル情報が含まれます。異なるモーダル情報を統合し、異なるリソース (

arxiv_readerarxiv_reader のブックマーク 2022/11/22 13:42

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

VATLM: 音声表現学習のための統合されたマスク予測によるビジュアル オーディオ テキストの事前トレーニング

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう