ohnabeのブックマーク / 2017年5月2日

ohnabe id:ohnabe

2017年5月2日のブックマーク (7件)

Dual Averaging Method for Regularized Stochastic Learning and Online Optimization
ohnabe 2017/05/02
RDA

online algorithm
リンク
オンライン学習周りを調べている - laughingのブログ
ADAGRAD *1 学習率をいい感じに調節してくれるスゴイやつ過去の gradient の2乗和で，今の gradient を割る ADADELTA *2 adagrad をちょっと変更していて，ある程度直近の gradient の2乗和を見て，学習率を求めるやつ adagrad は学習率を設定する必要があるけど，こっちは要らないそのかわりにどの程度，過去を重視するかのパラメータがあるここに adagrad と adadelta の比較がある ConvNetJS Trainer Comparison on MNIST L1 とかどういう更新式になるんじゃろ? FOBOS オンライン学習の解き方の1つで，正則化項を考えないを求めてからそのに対して，正則化項を考慮したときの projection をする RDA *3 損失関数と正則化項がある時のオンライン学習の解き方の1つっ
ohnabe 2017/05/02
AdaGrad

機械学習

オンライン
リンク
30minutes Adagrad Rda | PDF
What is Scribd?AcademicProfessionalCultureHobbies & CraftsPersonal GrowthAll Documents
ohnabe 2017/05/02
AdaGrad

RDA
リンク
Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty
Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP, pages 477–485, Suntec, Singapore, 2-7 August 2009. c 2009 ACL and AFNLP Stochastic Gradient Descent Training for L1-regularized Log-linear Models with Cumulative Penalty Yoshimasa Tsuruoka†‡ Jun’ichi Tsujii†‡∗ Sophia Ananiadou†‡ † School of Computer Science, University of Manchester, UK ‡ National Centre for Text Mi
ohnabe 2017/05/02
FOBOS
リンク
FOBOS
劣勾配法の問題点収束が遅い L1正則化に適用してみても，0になる重みの数があまり多くならない概要勾配法に似たオンライン学習アルゴリズム各データについてのパラメーター更新を，勾配法では一気にしていたが，FOBOSでは2ステップに分けている損失項の劣勾配法による処理正則化項の閉じた形での最適解の計算更新式について更新前のパラメータを$w_t$とおく損失項の劣勾配法による処理を終えたときに得たパラメータを$v$をおく第2ステップの更新式は $w_{t+1} = \arg \min_{\bold{w}} \frac{1}{2} || \bold{w} – \bold{v} || ^2 + \hat{\lambda} R(\bold{w}) $ $\hat{\lambda}$は学習率 $R()$は正則化関数 RがL1正則化関数なら，$\bold{w}_{t+1}$の$i$番目の値
ohnabe 2017/05/02
FOBOS
リンク
AdaGrad+RDAを実装しました。 - EchizenBlog-Zwei
AdaGrad(Adaptive Gradient)というオンライン学習のアルゴリズムを実装しました。 https://github.com/echizentm/AdaGrad 論文: Adaptive Subgradient Methods for Online Learning and Stochastic Optimization(http://www.magicbroom.info/Papers/DuchiHaSi10.pdf) AdaGradはAROWのように重みの更新を適応的に行うことが出来るほか、正則化のアルゴリズムと組み合わせることが出来るという利点があります。このためFOBOSやRDAなどを用いたL1正則化によって特徴量を疎にすることが出来ます。今回はRDAと組み合わせたAdaGradをperlで実装しました。 RDAを用いた理由は上記論文でFOBOSよりも高性能だった
ohnabe 2017/05/02
FOBOS

RDA
リンク
しましま/IBISML012 - 機械学習の「朱鷺の杜Wiki」
第12回情報論的学習理論と機械学習研究会† このページはしましまが第12回電子情報通信学会情報論的学習理論と機械学習研究会に参加してとったメモです．私の主観や勘違いが含まれていたり，私が全く分かってなかったりしていますので，その点を注意してご覧ください．誤りがあれば，指摘してください． ↑ バイアス付きPassive-Aggressiveアルゴリズム† ○立石大悟・畑埜晃平・瀧本英二（九大）オンラインの線形2値分類：予測誤り回数の最小化 Perceptron, PA, Cw, AROW, NHERD などは，基本的には原点を通る超平面で分離次元拡張法：バイアスを扱うにはパラメータに定数の特徴を追加 → 定数に1を入れることが多いが，入れる定数によって性能が変わる → 困る次元拡張法を使わないで，Passive Agressive にバイアス項を扱えるようにする Passive
ohnabe 2017/05/02
機械学習

アルゴリズム
リンク
- 2017年5月4日
- 2017年5月2日
- 2017年5月1日