日本ソフトウェア科学会第34回大会 2017 チュートリアル #chainer #chainercv #chainerrl #deeplearning #セグメンテーション #ニューラルネットワーク #強化学習 #深層学習 #物体検出 #画像認識 #自然言語処理Read less
こんにちは、スマートニュースの徳永です。深層学習業界はGANだとか深層強化学習だとかで盛り上がっていますが、今日は淡々と、スパースなニューラルネットワークの話をします。 要約すると ニューラルネットのスパース化によって、精度はほとんど犠牲にせずに、計算効率は3〜5倍程度まで向上できる スパース化にはまだ課題が多く、ニューラルネットの高速化という意味では、次の戦場はたぶんここになる スパースとは、スパース化とは スパースであるとは、値のほとんどが0であることです。例えば、ベクトル$a,b$の内積を計算する際に、$a$のほとんどの要素の値が0であるとしましょう。0になにをかけても0ですから、$a$の値が0でない次元についてのみ、$a_i b_i$の値を計算して足し合わせればよいわけです。このように、内積を計算する際に、どちらかのベクトルがスパースであれば計算が高速化できます。0という値をメモリ
Gradient Boosting や XGBoostについて調べたことをまとめました. Gradient Descent や Newton法と絡めて説明していきたいと思います. 目次 Boosting Gradient Descent (Steepest Descent) Gradient Boosting Regression Tree Gradient Tree Boosting Learning rate Newton Boosting XGBoost Generalization Error Conclusion Reference Boosting Boostingとは,ランダムより少し良い程度の”弱い”学習アルゴリズムを使って, そのアルゴリズムよりも”強い”学習アルゴリズムをつくることです. イメージとしては,弱い学習アルゴリズムを”boost”してあげる感じでしょうか.
勉強会で話してきました。 ml-professional.connpass.com 発表資料はこちらです。 機械学習プロフェッショナルシリーズ輪読会 #5 異常検知と変化検知 Chapter 1 & 2 資料 from at grandpa www.slideshare.net 今回から「異常検知と変化検知」。 持ち時間1時間でしたが、1章がモリモリで普通に時間オーバーしてしまいました。 質問では、数式の指摘を受けて(;^ν^)ぐぬぬ…となる場面も。 しかし、それもみなさんで協力して解こうというスタイルで、いろいろ勉強になりました。 一方的にしゃべる勉強会ではなく、ディスカッションが生まれることや懇親会が非常に盛り上がることなど、とてもおもしろいので、興味がある方は是非ご参加ください。
A central challenge to many fields of science and engineering involves minimizing non-convex error functions over continuous, high dimensional spaces. Gradient descent or quasi-Newton methods are almost ubiquitously used to perform such minimizations, and it is often thought that a main source of difficulty for the ability of these local methods to find the global minimum is the proliferation of l
A central challenge to many fields of science and engineering involves minimizing non-convex error functions over continuous, high dimensional spaces. Gradient descent or quasi-Newton methods are almost ubiquitously used to perform such minimizations, and it is often thought that a main source of difficulty for these local methods to find the global minimum is the proliferation of local minima wit
Machine Learning that Matters Kiri L. Wagstaff kiri.l.wagstaff@jpl.nasa.gov Jet Propulsion Laboratory, California Institute of Technology, 4800 Oak Grove Drive, Pasadena, CA 91109 USA Abstract Much of current machine learning (ML) re- search has lost its connection to problems of import to the larger world of science and so- ciety. From this perspective, there exist glar- ing limitations in the da
導入pdf 情報の変換過程のモデル化 ベイズ統計の意義 識別モデルと生成モデル 最尤推定、MAP推定 データの性質 情報理論の諸概念 (KL-divergenceなど) 距離あるいは類似度 数学のおさらいpdf 行列の微分 線形代数学の役立つ公式 多次元正規分布 条件付き正規分布 Bayes推論pdf Bayseによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味<\li> 正規分布と事後分布 指数型分布族 自然共役事前分布の最尤推定 線形回帰および識別pdf 線形回帰のモデル 正則化項の導入 L2正則化 L1正則化 正則化項のBayes的解釈 線形識別 2乗誤差最小化の線形識別の問題点 生成モデルを利用した識別 学習データと予測性能pdf 過学習 損失関数と Bias,Variance, Noise K-Nearest Neighbor法への応用 b
はじめに ノンパラメトリックに関する論文やチュートリアルを見ていると「混合正規分布の混合数も推定できちゃうんですよぱねぇ」みたいなこと書いてあったり、その図が載ってたりする。 試してみたいなぁと思ったので、書いて実験してみる。 理解が乏しいのでやり方が間違っている可能性が高く、コーディングがスマートじゃない、あくまで実験用。。。orz 説明 CRP-type samplingでやってみる。 あるいくつかの正規分布に従うデータが与えられるとき、その混合比πとパラメータθを推定する。 P(x|θ) : 正規分布 G0 : パラメータの事前分布(平均の事前分布、分散の事前分布) θ_k : テーブルkのパラメータ(平均と分散) α_0 : 集中度パラメータ π : 混合数と混合比 →G0(のパラメータ)とα_0とデータを与える。 データは、1次元のを自分で用意して使う。以下は、各正規分布が離れて
A simple explanation of the Lasso and Least Angle Regression in Japanese lasso を提案した Robert Tibshirani 教授 が lasso に関する論文の PDF などを まとめたページ The Lasso Page: L1-constrained fitting for statistics and data mining に, lasso と最小角度回帰の簡潔な説明 A simple explanation of the Lasso and Least Angle Regression を書いています. そこでは, lasso の特徴 (係数の絶対値の和に上限がある二乗誤差推定) が 簡潔に説明されていて, 全体の印象をつかむ参考になりそうなので, 翻訳してみました. 短い文章なので, 原文で読む方
ちょっと昔のメモを整理がてら公開しておく。 データ融合(data fusion)という手法がある。 例えば、「ある特定の性質を有する製品を、ある特定のターゲットがどれくらい購入するか」といった問題に対して、「広告接触の変数」と「購買の変数」が同一対象者から得られているシングルソースデータがあればそれを使えばいいだけの話だが、現実にはそうはいかない。なんとなく属性が似た別人のデータが複数ある、つまりマルチソースデータがばらばらっとあるだけ、というのが普通である。 このマルチソースデータを「のりしろ」となる共通項目で結合する手法がデータ融合である。 もっとわかりやすく詳細な説明はhttp://www.respo.provost.nagoya-u.ac.jp/research/dat/016hoshino.html/:名古屋大学星野先生の紹介を参照のこと。 以下メモ書き。 内容 参考文献 データ
「クラスタは球状だ」と想定しているk平均法が苦労するように、細長くて交差したクラスタのデータを使った。また変分ベイズの「クラスタの個数を自動調整する」というメリットを確認するために、クラスタの個数は2, 4, 8個で行った。EMアルゴリズムと変分ベイズでは、k平均法ができていない「長細いクラスタだ」という推定ができている。またEMアルゴリズムではクラスタの個数は人間が与えないといけないが変分ベイズでは自動調整されている。ただし、自動調整に失敗することも結構あるので「何回か実行して一番良かったものを取る」というアプローチが必要だろうな。変分ベイズの8クラスタでの実験は10回やって一番良かったものを取っている。4クラスタの実験は6回。それぞれ初期状態から20ステップの学習過程を動画にしている。 k平均法 k平均法では細長いクラスタを見つけられないのでこれが限界 4クラスタの例。クラスタの個数を
第11回の数理助教の会では数理第6研究室の冨岡亮太さんに「行列およびテンソルデータに対する機械学習」というタイトルでおはなししていただきました。冨岡さんは機械学習の分野において第一線で活躍されている研究者です。また冨岡さんは、この数理助教の会の「いいだしっぺ」であり、この集まりを通じて多岐にわたる領域をカバーする数理工学分野の若手研究者の横のつながりを活発にするためにご尽力されております。 行列は行と列の2軸上のデータとして見ることができます。さらに軸を増やしたデータはテンソルとよばれます。行列の低ランク分解についてはリコメンデーションに利用される協調フィルタリングなどの重要な応用がよく知られています。その一方で、テンソルに関しては機械学習においてまだ新しい研究対象であり、また最近冨岡さんが活発に取り組んでいる研究テーマだそうです。今回のトークでは、行列に対する判別モデルにおける低ランク分
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く