![](https://cdn-ak-scissors.b.st-hatena.com/image/square/bcf53b25e94b1fe4c1cb127958bf146abe84e1e1/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fnews%2Farticles%2F2308%2F25%2Fcover_news060.jpg)
エントリーの編集
![loading...](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/common/loading@2x.gif)
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
![アプリのスクリーンショット](https://b.st-hatena.com/bdefb8944296a0957e54cebcfefc25c4dcff9f5f/images/v4/public/entry/app-screenshot.png)
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
複数人の会話から特定の1人だけを音声識別する手法 米NVIDIA「CONF-TSASR」開発
このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless... このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 話者プロファイルと補助発話(ターゲット話者)が与えられた重複多話者環境において、「単一チャネル話者自動音声認識」という特定の話者の発話を書き起こすタスクがある。この研究では、エンド・ツー・エンドの単一チャネル話者自動音声認識「CONF-TSASR」を提案する。 このモデルは、TitaNetベースの話者埋め込みモジュール、Conformer(TransformerとCNNを組み合わせたモデル)ベースのMaskNet、ASRモジュールから構成される。TitaNetは目標話者の補助発話から話者埋め込みを抽出する。MaskNetはConformer
2023/08/25 リンク