リカレントニューラルネット(RNN)を使って文章を生成する話。 RNNはパワフルだけど学習が難しい。Hessian-free最適化(HF)を使えばいい感じに学習できて、難しい問題に使える。 この論文では文字を入力として言語モデルを作って、そこから文章を生成する。 標準的なRNNだとちょっと問題があったのでmultiplicativeな亜種を作った。入力文字によって隠れ層のベクトルを次の層へ伝達する際の遷移行列を選べるようにしたものである。 multiplicative RNN(MRNN)をHFで、8つのハイエンドGPUを積んだマシンで5日掛けて学習した結果、既存の言語モデルを上回る成績を得た。 隠れ層の活性化関数はtanh、出力層は素通し。 Sequence memoizerはデータ構造の関係から32GBメモリのマシンで扱えるデータセットは130MBぐらい、MRNNはこの上限がない。 実験
リカレントニューラルネット(RNN)に長距離相関を学習させるのは難しい問題だったが、Hessian-Freeを使ったらできた、という話。 RNNはBack Propagation Through Time(BPTT)+確率的勾配法で簡単に計算できることが長所とされているが、10タイムステップほど離れた相関は1次の勾配法では全然学習できない その原因は“vanishing/exploding gradients”。長距離相関はBPTTで何度も前の時刻の層へ伝搬されるため、誤差信号がすぐに減衰して消えてしまう。 最近生まれたHessian-Free(HF) またの名をtruncated-Newton, Newton-CG はDeep Neural Networksの学習に有効なので、RNNの学習にもきっと有効に違いない。 数式に関してはあんまり簡潔に要約できないので割愛。ここをじっくり読まない
"Hessian-Free"という新しい最適化手法をDeep Learningのauto-encoderの学習に使ってみたら事前学習なしで既存の報告の性能を超えたぞ凄いだろう、という話。 ニューラルネットのパラメータ決定はよく研究されている問題で、勾配法で効率よく計算できると言われている。しかしDeep Learningのように隠れ層がとても多いケースではうまくいかない。学習にとても時間がかかったり、学習データに対してさえ酷いパフォーマンスしか出せなかったりする(under-fitting)。 最適化に関する研究者の間では勾配法が病的な曲率を持った目的関数に対しては不安定であることがよく知られている。2次の最適化法はこのような目的関数に対してもうまく働く。だからDeep Learningにもこの種の最適化を使ったらいいんじゃないか。 でもまだいくつか問題がある。まずでかいデータセットに対し
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く