17日目書かせていただきます.よろしくお願いします. 機械学習やってます!という方は,きっとsoftmaxに日頃お世話になっているだろう.しかし多くの方は,「softmaxを使えば,ニューラルネットとかで分類問題解けたりするんでしょ?」程度の理解ではないだろうか?私もそうだ.使えれば何でも良い.しかしこの記事では,softmaxについて少々深掘りをしてみたいと思う.本記事の流れとしては,argmaxを導入し,softmaxをラグランジュの未定乗数法で導出し,出力がスパースになるsparsemax,それらの一般化であるentmaxを紹介したいと思う. おまけとして,温度付きsoftmaxとGumbel-softmaxも入れたので,適当に興味あるところだけでも読んでくれると嬉しい. この記事では,なんちゃらmaxに入れる前の値をロジットと呼び,$\mathbf{z}$で表す.また,なんちゃらm
機械学習でよく用いられるカーネルを用いた独立性検定で、カーネルが特性カーネルであることが要求される。福水健次先生の「カーネル法入門」で、特性カーネルとBochnerの定理の関係が書かれている。伊藤清先生のIntroduction to Probability Theoryで証明を追ってみたら、少し長いが、素人でもわかる感じがしたので、まとめてみた。2変数の差の関数として表されるカーネル(ガウスカーネルなど)を特性関数(確率分布のフーリエ変換)と見たときに、その対応する確率分布のサポートが実数全体となるとき、特性カーネルになる。Bochnerといえば、Bochner積分を思い出すが、尊敬できる数学者である。 読みにくい場合、ダウンロードしてください。
Meet the Bregman Divergences If you’ve read theoretical papers in machine learning then you’ve likely seen the term “Bregman divergences” thrown about and might be wondering what they are and what the fuss is about. As with most mathematical topics, the Wikipedia page on Bregman divergences is heavy on formalism and light on context, which is fine as a reference but not ideal if you are reading ab
データ分析ガチ勉強アドベントカレンダー 23日目。 ここまでデータをどういう風に処理したり、どういうタスクをこなしていくかについて勉強してきたが、 一度基礎的な事項に戻ってみたいと思う。基礎だから簡単というわけではない。基礎だからこそ難しく、また本質的な内容。 データ分析で使われている手法などをまとめて集約して、簡単な説明を付け加えていく。 しかし、このあたりの数学*1は苦手なので、なるべく直感的に自分のイメージを書いていく。 われわれが生きている空間や、距離は"正しい"のか ユークリッド空間/ユークリッド距離 点の距離 分布の距離 wasserstein計量 カーネル(再生核ヒルベルト空間) Topological Data Analysis(TDA) 次元削減/Embedding PCA(principal component analysis) t-SNE(t-Distributed
In this paper we provide a finite-sample and an infinite-sample representer theorem for the concatenation of (linear combinations of) kernel functions of reproducing kernel Hilbert spaces. These results serve as mathematical foundation for the analysis of machine learning algorithms based on compositions of functions. As a direct consequence in the finite-sample case, the corresponding infinite-di
こんにちは。 この記事は、皆さんサポートベクトルマシン(SVM)でお馴染みであろう Reproducing Kernel Hilbert Space (再生核ヒルベルト空間) : (以下RKHS) に関するただの個人的なメモです。 動機は、非常に重用なMercerの定理の証明がウェブ上で簡単に見つからなかったために色々調べてたものを整理する事です。 個人的に、RKHS周りの数理を整理しておきたかった、と言うのもあります。 ※一応、ヒルベルト空間とその有界作用素の定義ぐらい知っていれば読めるようにリファレンスはなるべく付けてありますが、どう考えてもself-containedな記事ではありません。 §1. RHKSの定義とカーネルの関係 を任意の空でない集合とします。 定義(Reproducing Kernel Hilbert Space) 上の関数から成る実ヒルベルト空間 が 上のRepr
概要Wasserstein距離がKLダイバージェンスで抑えられるという不等式のことを輸送不等式というのでした。例えば距離空間$(X, d)$上の確率測度$\mu$が$T_1(C)$を満たすというのは、任意の確率測度$\nu$に対して $$ W_1(\mu, \nu) \leq \sqrt{C D_{KL} (\mu, \nu)} \tag{1} $$ が成り立つことをいいます。 $f: X \to \mathbb{R}$がLipschitz関数のとき、 $$ \forall t > 0, \quad \Pr [ f - \mathbb{E}f \geq t] \leq \exp \left( - \frac{C t^2}{2 \lVert f \rVert_{Lip}^2} \right) \tag{2} $$ が成り立つという性質を考えます。言葉でいえば「すべてのLipschitz関数の
This paper presents an investigation of the approximation property of neural networks with unbounded activation functions, such as the rectified linear unit (ReLU), which is the new de-facto standard of deep learning. The ReLU network can be analyzed by the ridgelet transform with respect to Lizorkin distributions. By showing three reconstruction formulas by using the Fourier slice theorem, the Ra
昨年NIPSベストペーパーで話題になったVCAの論文読みメモです。 デンソーアイティラボラトリの塚原氏が試していた件を初めとして、幾人か実装してブログを書かれているが、なぜ単純な円にガウスノイズを乗せた程度のグラフで円の方程式がパッと出てこないのか、その理由が知りたいです。 結論からいうと、論文読んでも良くわからなかったのですが、参考リンク http://lennmars.hatenablog.com/entry/2014/03/30/012008 http://d.hatena.ne.jp/m-a-o/20140323#p2 アブスト R^N上の集合に対してVanishingイデアルが定義できて、それは有限のイデアル生成系でコンパクトに表現できる。それを効率良く構成する方法を示す。我々のアプローチは数値的に安定、つまり誤差を許容する。教師あり学習に適用でき、実験ではカーネル法と同等の精度
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く