エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
音と映像の関係性の学習 – Audio-Visual Scene Analysis with Self-Supervised Multisensory Features
音と動画の関係を学習するモデルは、動画を扱う3次元のCNNと波形を扱う一次元のCNNの二つから構成されて... 音と動画の関係を学習するモデルは、動画を扱う3次元のCNNと波形を扱う一次元のCNNの二つから構成されています。学習にはAudioSetの750000の動画を利用しました。 画面内と外の音源の分離には、pix2pixなどでも使われているU-netのアーキテクチャに基づいたencoder-decoderのアーキテクチャを使っています。encoderのアウトプットに、上で挙げた音と動画が同期しているかを識別するモデルのアウトプットを連結することで、同期関係の情報をdecoderに与えています。 本研究の発表に前後して、The Sound of Pixels や Looking to Listen: Audio-Visual Speech Separation といった関連研究が複数発表されています。これまで別々に扱うことが多かった音と映像を同時に扱うことで、いままでできなかった様々なタスクが
2018/05/21 リンク