mntoneのブックマーク / 2023年8月25日

複数人の会話から特定の1人だけを音声識別する手法　米NVIDIA「CONF-TSASR」開発

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」（シームレス）を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 話者プロファイルと補助発話（ターゲット話者）が与えられた重複多話者環境において、「単一チャネル話者自動音声認識」という特定の話者の発話を書き起こすタスクがある。この研究では、エンド・ツー・エンドの単一チャネル話者自動音声認識「CONF-TSASR」を提案する。このモデルは、TitaNetベースの話者埋め込みモジュール、Conformer（Transf ormerとCNNを組み合わせたモデル）ベースのMaskNet、ASRモジュールから構成される。TitaNetは目標話者の補助発話から話者埋め込みを抽出する。MaskNetはConformer

はてなブックマーク

タグ

2023年8月25日のブックマーク (1件)

複数人の会話から特定の1人だけを音声識別する手法　米NVIDIA「CONF-TSASR」開発

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

2023年8月25日のブックマーク (1件)

複数人の会話から特定の1人だけを音声識別する手法 米NVIDIA「CONF-TSASR」開発

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

複数人の会話から特定の1人だけを音声識別する手法　米NVIDIA「CONF-TSASR」開発