KAISTら、画像や動画内のどこから音が鳴っているかの音源を推定する教師なし学習を用いた手法を発表 2018-07-09 KAIST、MIT CSAIL、カリフォルニア・マーセッド大学の研究者らは、画像シーンとその音声から画像のどこから音が鳴っているかの音源を推定する機械学習を用いた手法を発表しました。 論文:Learning to Localize Sound Source in Visual Scenes 著者:Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon 本稿は、画像と音のペアから、その音源が画像中のどこから鳴っているかの音の視覚情報を教師なし学習で推定するアーキテクチャを提案します。 本提案手法は、two-streamネットワークアーキテクチャを用いており、サウンドネットワーク、ビジュアルネッ