人間であれば、目にした映像をもとに草の「ガサガサ」という音や、木の机を「コン」とたたいた音を想像することはそれほど難しいものではありませんが、進化が著しいディープラーニングの技術によって、コンピューターアルゴリズムにもそのような感覚的な予測を行うことが可能になってきています。マサチューセッツ工科大学(MIT)のComputer Science and Artificial Intelligence Lab (CSAIL)では、あらかじめ映像と音の関係を学習させておいたコンピューターに映像を見せて実際に聞こえそうな音を予測させる研究が進められており、高い精度で映像に効果音を乗せることができるようになっているようです。 Visually-Indicated Sounds - YouTube 木の棒で木の植え込みを「ガサッ」とたたく音や…… スチール製のラックを「ゴン」とたたく音 水たまりを「パ
![ディープラーニングで映像にあわせて効果音を乗せるアルゴリズムが登場、映像に音を乗せるとこうなる](https://cdn-ak-scissors.b.st-hatena.com/image/square/5388aa4588717f4ff203a08b8ad902ffec49e6f6/height=288;version=1;width=512/https%3A%2F%2Fi.gzn.jp%2Fimg%2F2016%2F06%2F26%2Fvisually-indicated-sound%2F00.png)