多階層のニューラルネットワークの勾配法を用いた教師あり学習では、下位層のパラメータは出力までにシグモイド関数が何重にもかかるため、勾配がほぼ0になってしまう問題がある。この問題は、最近ではGradient vanishing「勾配消滅」問題と呼ばれている。意外にも、このGradient vanishing問題を、可視化しているのを本や論文などで見かけたことが無いので、イメージをつかむために、pythonでシグモイド関数を1~4重までプロットしてみた。 1重目は当然ながら普通のシグモイドだが、2重目、3重目、4重目とどんどん潰れていって、4重目は1重目と比較すると平らになる。例えば、グラフの横軸を畳み込みの出力WX+b(W:重みパラメータ、bバイアスパラメータ)だとして、何重にもシグモイドをかけていった場合が縦軸の値だとすると、一層目のパラメータW、bは、どんな値をとろうとも、最終的なネット