サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
ktrmnm.github.io
はじめに最近、統数研で行われた関数推論のワークショップを聴講したり、面白いarXiv論文に出会ったりしまして、深層学習の理論への個人的な関心が高まってきました。そこで、いくつか関心があることをブログにまとめようと思います。 タイトルはほぼ釣りですが、 今回は「最適化マターをすべて無視した場合の汎化理論」次回は「Backpropしない最適化手法」という予定なので、そこまで間違ってはいないつもりです。ちなみに、網羅的なレビューではありません。 汎化というミーム機械学習の研究は「手法そのものの基礎研究」という側面がありますので、深層学習の研究の目標としては なぜ深層学習がうまくいっているように見えるのかどうすれば「理論保証つきで」もっとうまくいくのかということはぜひ解明されるべきかと思います。(もちろん、一枚岩の分野ではなく、応用研究が重要です)。 「なぜうまくいくのか」というのは、汎化 (ge
1. 概要下記のarXiv論文を紹介します。 Jinshan Zeng, Tim Tsz-Kit Lau, Shaobo Lin, Yuan Yao (2018). Block Coordinate Descent for Deep Learning: Unified Convergence Guarantees.arXiv:1803.00225 現時点では投稿されて間もない論文ですが、個人的には機械学習の論文を読んでいて久々に楽しい気持ちになれました。 論文の提案手法はgradient-free methodと呼ばれる手法の一種なので、本記事はそのあたりのレビューも少し兼ねます。 2. 勾配法の収束条件ニューラルネットの構造をひとつ固定し、その構造を使って表せる関数の全体を $\mathcal{F}$ と書きます。ニューラルネットの学習とは、与えられた損失を最小化する関数を見つけることで
この文章は、Boaz Barak教授 (現: Harvard大) による2014年のブログ Advice for FOCS authors を意訳したものです。 FOCSは、STOCなどと並ぶコンピュータサイエンスの理論系トップ会議です。情報系の分野ではなぜか、国際会議に採択されることがメインの業績として扱われることが多いです。(論文が論文誌に投稿されないので、他分野から見ると「え、何で論文書いてないの」のような反応がしばしば見受けられます。) しかし、情報系と一口に言っても、研究の進むスピードは分野によってさまざまです。 機械学習などでは、分野としては非常に速いスピードでトレンドが流れていく印象があります。近年は深層学習ブームと言われていますが、arXivに投稿した論文が次の日に他のグループによって引用されている、というような極端な話を方々で耳にします。そういった時間感覚を持つ分野では、
機械学習系のベイズっぽい論文を読んでいると、SGLD [WT11] やSGRLD [PT13] といった文字列を見ることがあります。これらが何かというとマルコフ連鎖モンテカルロ法 (MCMC) の一種で、正規化定数がわからない高次元の確率分布からのサンプリングを得たい場合などに使われます。 アルゴリズムの位置づけとしては、 Langevin Monte Carlo (LMC) とか Langevin Dynamics などという名前で呼ばれている既存アルゴリズムがまずあり、それに伴う勾配計算をサブサンプリングを利用して簡略化したもの という感じです。勾配降下法 (GD) を確率的勾配降下法 (SGD) に拡張することにインスパイアされているのだったと思います。LMCのモチベーションとしてよく言われるのは、LMCでは (Metropolis–Hastings法に見られるような) 棄却ステップ
前回に引き続いてinformation bottleneck (IB) 関連の論文を読んでいました。 特に、information plane (IP) という図の上で深層学習の挙動を説明する議論について調べていました。ひとまず現状把握という感じのメモで、細かいところは読んでいません。 Information plane発端深層学習の挙動をinformation bottleneckの言葉で解析する研究の発端は、以下の2つだと思われる。 [1] Tishby and Zaslavsky (2015). Deep Learning and the Information Bottleneck Principle. (URL) [2] Shwartz-Ziv and Tishby (2017). Opening the Black Box of Deep Neural Networks via
概要Wasserstein距離がKLダイバージェンスで抑えられるという不等式のことを輸送不等式というのでした。例えば距離空間$(X, d)$上の確率測度$\mu$が$T_1(C)$を満たすというのは、任意の確率測度$\nu$に対して $$ W_1(\mu, \nu) \leq \sqrt{C D_{KL} (\mu, \nu)} \tag{1} $$ が成り立つことをいいます。 $f: X \to \mathbb{R}$がLipschitz関数のとき、 $$ \forall t > 0, \quad \Pr [ f - \mathbb{E}f \geq t] \leq \exp \left( - \frac{C t^2}{2 \lVert f \rVert_{Lip}^2} \right) \tag{2} $$ が成り立つという性質を考えます。言葉でいえば「すべてのLipschitz関数の
このページを最初にブックマークしてみませんか?
『ktrmnm.github.io』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く