タグ

2014年8月8日のブックマーク (3件)

  • AdaGradが12倍速くなる魔法

    AdaGradは学習率を自動調整してくれる勾配法の亜種で、いろんな人が絶賛しています。 勾配を足し込む時に、各次元ごとに今までの勾配の2乗和をとっておいて、その平方根で割ってあげるだけと、恐ろしくシンプルです。 Adaptive Subgradient Methods for Online Learning and Stochastic Optimization John Duchi, Elad Hazan, Yoram Singer. JMLR 2011. 丁度、 @echizen_tm さんがブログを書いてました。 AdaGrad+RDAを実装しました。 通常のSGDなどは学習率をだんだん減衰させながら勾配を足していくわけですが、どの様に減衰させるかという問題にいつも頭を悩ませます。 AdaGradでは最初の学習率こそ外から与えますが、減衰のさせ方や減衰率といったハイパーパラメータから

  • 深層学習についてこの夏勉強してみたくなった - 武蔵野日記

    午前2時半に起きて授業の資料を作成。育児支援休暇で1回授業を休講にしたので、その補講があるのだった。 今回いちばんホラーな点は、2限(10:30スタート)に授業があるのに当日の午前2時半で資料が1ページもできていないことで、しかも今回全く新規の内容を話す回にしていたことであった。最近あまり夢を見なくなったのだが、数カ月に1回見る悪夢は、翌日にいくつか授業をしないといけないのに、準備が全く終わっておらず、残り時間を考えると絶対全部間に合わない、というものである。それくらい、授業の準備というものにはプレッシャーがある。(90分、全く準備なしに、教えなければならない内容が決まっている授業を教えるのは難しい) とはいうものの、なんとか4時間くらいで40ページ弱のスライドを作成し、一安心。事前に頭の中では考えていたので、全く準備がないわけではなかったのも幸いしたが、こういう綱渡りは何度もやりたくない

    深層学習についてこの夏勉強してみたくなった - 武蔵野日記
  • Graph of Word、TW-IDFとTFのnormalizationメモ - Negative/Positive Thinking

    はじめに Rousseau et al., Graph-of-word and TW-IDF: New Approach to Ad Hoc IR http://www.lix.polytechnique.fr/~rousseau/papers/rousseau-cikm2013.pdf 文書dのグラフ的表現とそこから計算されるTW-IDFというTermの重み付けについて、メモ。 Graph of Word 文書を重みなし有向グラフで表現 頂点: 各(unique)term 辺: 固定幅(4ぐらい?)の窓内のtermとの共起 辺の向き: termの出現順序(前から後ろ方向のみ) 多重辺にはしない TW-IDF TW-IDF(t,d) = tw(t,d) / (1-b+b*|d|/avdl) * log( (N+1) / df(t) ) tw(t,d): 文書dのgraph of word表

    Graph of Word、TW-IDFとTFのnormalizationメモ - Negative/Positive Thinking