2018年、韓国科学技術院から音の発生源を推測するAIが提案された。画像上の音の発生場所と考えられる物体をヒートマップとして可視化できるものだ。 説明だけではあまりピンとこないかもしれないので、次の動画を数秒ほどご覧頂きたい。 動画では、馬車に対して強いヒートマップが出ており、音の発生場所を上手く捉えられていることがわかる。 この研究の強みは、教師なし学習が用いられていることだ。アノテーションされていないただの動画データを学習するだけで、音声発生源を推測できることがわかる。 論文名:Learning to Localize Sound Source in Visual Scenes 学会:CVPR2018 作者:Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon 所属:KAIST, MIT CSAIL, U
![【マルチモーダル学習】画像中の音の発生源を可視化するAI | Ledge.ai](https://cdn-ak-scissors.b.st-hatena.com/image/square/2fca61bddfddae4c0ec6fc55d9f14dfad3f25b8a/height=288;version=1;width=512/https%3A%2F%2Fs3-ap-northeast-1.amazonaws.com%2Fledge-ai-assets%2Fmedia%2Fwp-content%2Fuploads%2F2019%2F07%2F11132927%2Feye_catch.jpg)