タグ

ブックマーク / blog.unnono.net (2)

  • AdaGradが12倍速くなる魔法

    AdaGradは学習率を自動調整してくれる勾配法の亜種で、いろんな人が絶賛しています。 勾配を足し込む時に、各次元ごとに今までの勾配の2乗和をとっておいて、その平方根で割ってあげるだけと、恐ろしくシンプルです。 Adaptive Subgradient Methods for Online Learning and Stochastic Optimization John Duchi, Elad Hazan, Yoram Singer. JMLR 2011. 丁度、 @echizen_tm さんがブログを書いてました。 AdaGrad+RDAを実装しました。 通常のSGDなどは学習率をだんだん減衰させながら勾配を足していくわけですが、どの様に減衰させるかという問題にいつも頭を悩ませます。 AdaGradでは最初の学習率こそ外から与えますが、減衰のさせ方や減衰率といったハイパーパラメータから

    pcod
    pcod 2014/08/07
  • NIPS2013読み会でword2vec論文の紹介をしました

    先週、 @sla さん主催のNIPS2013読み会で、word2vec論文(正確には続報)の紹介をしました。 ちょっと解説を書きます。 このところの深層学習ブームは自然言語処理にも来ていて、それらのウチの1つと言われています(が、全然deepっぽさはない)。 最初のモチベーションがどういうところにあったかというのは、ちょっと色々だと思いますが(おそらく最初は言語モデルにおける低頻度語の確率をウマイことモデル化・推定したかったんではないかな)、何はともあれ単語の意味的なあるいは統語的な振る舞いをベクトル表現で表すという研究が流行っております。 ベクトル表現というのは、1つの単語wに対して、その単語を「表現」するようなベクトル v(w) を作ります。 そんなこといわれても、作れば?ということなんですが、できたベクトルに対して何かしら「都合のいい」性質ができることが真の目標です。 「都合のいい」

    pcod
    pcod 2014/03/18
  • 1