TOP PAPER GANによる音の生成 – Synthesizing Audio with Generative Adversarial Networks GANによる画像生成の研究が2017年のホットな研究トピックだったのに対して、サウンドの生成に関してはまだそれほど研究が進んでいません。意味のある音を生成するには大量のサンプルを生成する必要がある(たとえばCDのサンプリングレートは一秒間に44100サンプル) という点がまずは音と画像との大きな違いでしょうか。また、音は繰り返しが多い、前後の依存関係が非常に強いという点も画像とは異なる特徴です (DeepMindの音の合成モデル WaveNetではこの時系列の依存関係をDilated Convolutionという考え方で利用しています)。 そこで、上記の音の特徴に合わせて既存のGANの考え方を拡張することで、リアルな音の生成に成功した