sucroseのブックマーク / 2014年2月8日

sucrose id:sucrose

2014年2月8日のブックマーク (5件)

カザフスタン:国名変更へ…スタン取り近隣諸国と違いＰＲ - 毎日新聞
sucrose 2014/02/08
リンク
mod p の逆元
おめ @omeometo @ut_math 特に名前とかはなさそうですがrng-hos法とかrng-hos-ome法とか呼ぼうとしてたこともありましたたとえば23^-1 mod 97を計算するなら23*4=-5 5*19=-2 2*49=1より23^-1=(-1)^2*4*19*49=38とやるだけです 2012-01-09 21:45:44
sucrose 2014/02/08
リンク
Deep Learning論文紹介「Generating Text with Recurrent Neural Networks」 - 西尾泰和のはてなダイアリー
リカレントニューラルネット(RNN)を使って文章を生成する話。 RNNはパワフルだけど学習が難しい。Hessian-free最適化(HF)を使えばいい感じに学習できて、難しい問題に使える。この論文では文字を入力として言語モデルを作って、そこから文章を生成する。標準的なRNNだとちょっと問題があったのでmultiplicativeな亜種を作った。入力文字によって隠れ層のベクトルを次の層へ伝達する際の遷移行列を選べるようにしたものである。 multiplicative RNN(MRNN)をHFで、8つのハイエンドGPUを積んだマシンで5日掛けて学習した結果、既存の言語モデルを上回る成績を得た。隠れ層の活性化関数はtanh、出力層は素通し。 Sequence memoizerはデータ構造の関係から32GBメモリのマシンで扱えるデータセットは130MBぐらい、MRNNはこの上限がない。実験
sucrose 2014/02/08
リンク
Deep Learning論文紹介「Learning Recurrent Neural Networks with Hessian-Free Optimization」 - 西尾泰和のはてなダイアリー
リカレントニューラルネット(RNN)に長距離相関を学習させるのは難しい問題だったが、Hessian-Freeを使ったらできた、という話。 RNNはBack Propagation Through Time(BPTT)＋確率的勾配法で簡単に計算できることが長所とされているが、10タイムステップほど離れた相関は1次の勾配法では全然学習できないその原因は“vanishing/exploding gradients”。長距離相関はBPTTで何度も前の時刻の層へ伝搬されるため、誤差信号がすぐに減衰して消えてしまう。最近生まれたHessian-Free(HF) またの名をtruncated-Newton, Newton-CG はDeep Neural Networksの学習に有効なので、RNNの学習にもきっと有効に違いない。数式に関してはあんまり簡潔に要約できないので割愛。ここをじっくり読まない
sucrose 2014/02/08
リンク
Deep Learning論文紹介「Deep learning via Hessian-free optimization」 - 西尾泰和のはてなダイアリー
"Hessian-Free"という新しい最適化手法をDeep Learningのauto-encoderの学習に使ってみたら事前学習なしで既存の報告の性能を超えたぞ凄いだろう、という話。ニューラルネットのパラメータ決定はよく研究されている問題で、勾配法で効率よく計算できると言われている。しかしDeep Learningのように隠れ層がとても多いケースではうまくいかない。学習にとても時間がかかったり、学習データに対してさえ酷いパフォーマンスしか出せなかったりする(under-fitting)。最適化に関する研究者の間では勾配法が病的な曲率を持った目的関数に対しては不安定であることがよく知られている。2次の最適化法はこのような目的関数に対してもうまく働く。だからDeep Learningにもこの種の最適化を使ったらいいんじゃないか。でもまだいくつか問題がある。まずでかいデータセットに対し
sucrose 2014/02/08
リンク
- 2014年2月9日
- 2014年2月8日
- 2014年2月7日