We could be entering a renaissance for human spaceflight research, as a record number of private citizens head to space — and as scientists improve techniques for gathering data on…
多くの人が集うパーティー会場のような、たくさんの人が談笑している中でも自分の名前や興味のある話を自然と聞き取ることができる現象は「カクテルパーティー効果」と呼ばれ、人間が持つ能力「選択的注意」の代表例とされています。Googleの研究者は、ディープラーニングを用いることでコンピューターに自動で混ざり合った音声を分離する技術を習得させて、コンピューターにカクテルパーティー効果を身に付けさせることに成功しました。 [1804.03619] Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation https://arxiv.org/abs/1804.03619 Research Blog: Looking to Listen: Audio-Vis
目次 (背景)自分の声を結月ゆかりにしたい。前回はあまりクオリティが良くなかったので、手法を変えて質を上げたい。 (手法)声質変換を、低音質変換と高音質化の二段階に分けてそれぞれ学習させた。画像分野で有名なモデルを使った。 (結果)性能が飛躍的に向上し、かなり聞き取れるものになった。 (考察)精度はまだ改善の余地があり、多対多声質変換にすることで精度が向上すると考えられる。今回の結果を論文化したい。 デモ動画 背景多くの人が可愛い女の子になりたいと思っている。 CG技術やモーションキャプチャ技術の向上により、姿は女の子に仮想化できるようになってきた。 しかし、声に関してはまだまだ課題が多い。 声質変換は「遅延」「音質」「複数話者」などの難しい課題がある。 今回は、自分の声を結月ゆかりにするための、低遅延で実現可能な高音質声質変換を目指した。 手法大きく分けて3つの工夫をした。 画像ディープ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く