Deep Learningの理論的な側面にアプローチした論文*1。タイトル通り、なぜDeep Learningがうまくいくのか?を考えている。ただし個々のネットワークの構造やdropoutなどの学習テクニック、種々の勾配法のアルゴリズムには言及せず、もっと基礎的な部分をフォーカスしている。 ここで議論されている中心的な問いは なぜ少数のパラメータしか持たないニューラルネットワークでデータを表す関数を表現できるのか? なぜ層を深くすることが有効なのか? の2つ。 1つめについて、ここでは過学習や収束する時間は考えず、ネットワークが次の関数を近似できればOKとしている。 ここでは分類問題を想定していて、 がデータ、そしてがそのラベルを表している。十分な数のノードを持つニューラルネットワークは任意の関数を任意の精度で近似できる*2という定理があるので最初これは自明かと思ったけど、どうもそうではな