パラメーター\( W_0 , W_1 , W_2 \)に注目してみます。 それぞれの行列の次元は、\( W_0 \)がデータ数×データ数 , \( W_1 \)が16×データ数 , [mathjax]\( W_2 \)が16×1 です。 パラメーターが行列なので、勾配も行列で出てきます。\( L^2\)ノルムを使って勾配の大きさを評価しましょう。ベクトルや行列の[mathjax]\(L^2\) ノルムは以下の式で定義されます。 $$\begin{eqnarray} \| X \|_{L^2} =\sum_{i,j} x_{ij} ^2 \end{eqnarray}$$ 50回パラメーターの更新を行います。勾配はL2ノルムで評価し、パラメーターは行列の要素を一つ決めて、どのように更新されていくか調べます。 \( W_0\) が10回の更新を待たない間にほぼ定数になっています。一度落ち着いてか