サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
都知事選
mathetake.hatenablog.com
§1. はじめに こんにちは こんばんは 久しぶりの投稿です。 タイトルはスーパーマン松本さんのアレから拝借しました: codezine.jp 今日はポエムを書きます。 なにか技術記事を期待してた方、もしいましたらすみません。また次回。 完全に僕の観測範囲での主観に基づいていますので、燃えるかもしれません。 この文書は you should do ではなく what I didがメインです §2. 背景 数学しか知らなかった僕がGunosyに入社して、約7ヶ月ほど経ちました。 数学しか知らなかった、と書いたものの「数学は知っていたのか」と言われるNOです。 3ミリぐらいしか知りません。 僕が機械学習エンジニアになった経緯は↓の2つの記事にだいたい書いてあります: mathetake.hatenablog.com gunosiru.gunosy.co.jp 7ヶ月がむしゃらに仕事をしてきて
こんにちは。例のごとく久しぶりの投稿になってしまいました。 前回投稿からいろいろな事がありました。 db analytics showcase Sapporo 2017 で講演してきたり ベイズ統計の数理と深層学習 @db analytics showcase Sapporo 2017 from Takeshi Yoneda www.slideshare.net 雑誌に激エモポエムを寄稿したり YANSに参加してきたり gunosiru.gunosy.co.jp テキストアナリティクス・シンポジウム で発表してきたり data.gunosy.io もう少しで新卒で入社して半年が過ぎるわけですが、今振り返ると本当に刺激的な日々でした。近いうちに書籍の執筆もするっぽいです。 この調子で突っ走りたいと思います。 さて、前置きはこれくらいにして今日の題材は BigDL + Spark on EMR
こんにちは。お久しぶりの投稿です。 来週末に開催される db analytics show case Sapporo www.db-tech-showcase.com と言うイベントで講演する事になってまして、ベイズ統計やMCMCの基本的なところからEdwardのデモまでやっていく予定なのですが ただ基本的なモデルを紹介するのもおもしろくないので、僕なりの新しい深層学習+確率モデリングなモデルを考えましたので紹介したいと思います。 EdwardやMCMCの基本的なところについては弊社のブログに寄稿した以下の記事が詳しいので合わせてそちらも御覧ください↓ data.gunosy.io §1. お気持ち 例えば、ユーザーが付ける商品のレーティングを予測したいと考えます。 これは通常ターゲット が閉区間 に値を取る回帰問題として定式化されます。*1 与えられた特徴量に対して、予測値 を出力するわ
こんにちは Twitter就活コンサルタントと巷で噂のマスタケです 学生の頃みたいなクソみたいな記事は書いてはイケないと言うプレッシャーがあり、しばらくご無沙汰してましたが、書きます。(今回の記事がクソ記事ではないと言う意味ではありません。クソ記事です) §1. はじめに 今日のブログネタは次の2つの論文 [1]抽出型文書要約における分散表現の学習 —文書と要約の距離最小化— [2]Summarization Based on Embedding Distributions を読んで思いついた事の実験の報告と言った感じです。 これらの論文では、(word2vecなどの)単語の分散表現 を用いて次のように文章ベクトルを定義し*1: コサイン類似度を用いて2つの文章間の類似度を測り、それをベースに自動要約のアルゴリズムを提案しています*2: この文章ベクトルの良いところは、tf-idfベースの
こんにちは。久々の投稿です。 僕のTwitterをフォローしてくれている方はご存知かと思いますが、4月から機械学習エンジニア/データサイエンティスト(見習い)として働く事が決まりました。 今日六本木の某社から正式に内定を頂きましたが、間違いなくTwitterのおかげでありTwitterこそ就活の全てであると確信した次第でございます— マスタケ (@MATHETAKE) 2017年2月23日 良い区切りですので今回はタイトルの通り、ただの純粋数学の学生だった僕がデータサイエンスの勉強を何故/どのようにしてきたのか、についての思い出せる範囲で書こうと思います。 Disclaimer: この記事は基本的に、"What I did" に関する記事であって決して "What you should do" についての記事ではありません。そんな勉強方法おかしいとか、こうすべきだ、みたいなマサカリは一切受
こんにちは。 先日今話題沸騰中の ライブラリ Edward でVariational InferenceでBayesian DNNを学習させてみたと言う記事を書きました: mathetake.hatenablog.com 今回の記事は、Edwardの対抗馬(?)の一つであるPyMC3 を使って DNNの分類器をADVIでミニバッチ学習させるまでの道のりとその結果を簡単にご報告します。 例のごとく、Higgs粒子のデータセット mathetake.hatenablog.com を使います。 PyMCの開発者のブログ記事↓をかなり参考にしました。 Bayesian Deep Learning コード全文はこの記事の下にGistのリンク張っておきますのでそちらを。 §1 準備 まず諸々のモジュールをimportしてから 前回の記事で作成したデータセットを読み込み、加工します。 import py
今話題のアヒル本 StanとRでベイズ統計モデリング (Wonderful R) 作者: 松浦健太郎,石田基広出版社/メーカー: 共立出版発売日: 2016/10/25メディア: 単行本この商品を含むブログ (8件) を見る の後半の方にあるモデルをいくつかPyMC3で実装しました: github.com 特に一番重要であろうChapter8は全部実装してあります。 間違いや、こうしたらどうですか?みたいなコメントあったらTwitterまで御連絡ください。 この本は”統計モデリングとは”から始まり懇切丁寧にベイズ統計の実践方法を解説してあり、とてもためになります。 データ分析プロセス↓に並んで、Rユーザー以外にもおすすめ出来ます。*1 データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行
こんにちは。 今(僕の中で)話題沸騰中のベイズ統計用Pythonライブラリ Edward GitHub - blei-lab/edward: A library for probabilistic modeling, inference, and criticism. Deep generative models, variational inference. Runs on TensorFlow. を使って Bayesian DNN & Variational Inference をやってみましたので、その報告&コードの簡単な解説&感想をこの記事では残しておこうと思います。 前回の記事 mathetake.hatenablog.com で用意したHiggs粒子データセットを使って、分類器を作ろうと思います. ※Edwardってなんぞやって人は、公式Webまたは次の論文 [1701.037
こんにちは。 皆さん、ヒッグス粒子をご存知でしょうか。 ヒッグス粒子 - Wikipedia 2013年に、スイスにあるCERNの加速器実験で発見した、と発表されたばかりの新しい粒子です。*1 なんでも、”質量はどこから生まれるのか”みたいな問いに答えを与えるような粒子だそうで、なにやら凄いみたいです。*2 この記事のシリーズではUCI Machine Learning Repositoryにある、Higgs粒子発見器を作るためのデータセット UCI Machine Learning Repository: HIGGS Data Set を用いて、Higgs粒子発見器(!)を作って行こうと思います。 第一回目の今回は、前処理に重点を置いていきます。 §1. データセットの概要 データの概要ですが、とりあえず引用させてもらいます: The data has been produced usi
こんにちは。 この記事は、皆さんサポートベクトルマシン(SVM)でお馴染みであろう Reproducing Kernel Hilbert Space (再生核ヒルベルト空間) : (以下RKHS) に関するただの個人的なメモです。 動機は、非常に重用なMercerの定理の証明がウェブ上で簡単に見つからなかったために色々調べてたものを整理する事です。 個人的に、RKHS周りの数理を整理しておきたかった、と言うのもあります。 ※一応、ヒルベルト空間とその有界作用素の定義ぐらい知っていれば読めるようにリファレンスはなるべく付けてありますが、どう考えてもself-containedな記事ではありません。 §1. RHKSの定義とカーネルの関係 を任意の空でない集合とします。 定義(Reproducing Kernel Hilbert Space) 上の関数から成る実ヒルベルト空間 が 上のRepr
こんにちは。 今回は、このブログを読んでいる機械学習界隈の人なら必ず一度は聞いたことがあるであろう ガウス過程(Gaussian Process) についてです。かの有名な悪名高いPRMLにも頻繁に登場しますし、機械学習の本や論文にはしょっちゅう出て来る存在だと思います。僕の大好きなベイズ最適化 mathetake.hatenablog.com においても非常に重要な数学的概念です。 ガウス過程の説明でよくあるあるのは、 「確率変数の集まりであって、有限個取った場合にその同時分布はガウシアンである」 と言うものですが、、、。 肝心なのは、皆さん、 ・確率変数って何か分かってますか? ・確率分布ってなにか分かってますか? ・そもそも確率って何か分かっていますか? と言う話なのです。曖昧な土台の上で議論や話を進めるの、もうやめにしませんか?気持ち悪くありませんか? そして重要なのは、ガウス過程
こんにちは。 タイトルの意味ですが、 人工ニューラルネットワークの 1. 隠れ層の数 2.各層のニューロンの数 3.重み 4.バイアス この4つは出力関数だけを見れば決まるのか? と言うものです。 実はこの問題、特異点の解消の観点から、非常に重要(少なくとも従来の統計理論上)な問題なんですが、 現在一般的に使われるような何十にもなる多層ネットワークに関しては全くの手付かずの状態でした。 どんだけ調べても3層のネットワークの場合しか調べられていない。 そんなモチベーションがあって ここ一週間僕がずっと過去の結果[1,2,3]を拡張しようとしていたわけですが。。。 (部分的には拡張出来ましたが、壁にぶち当たっていました。) ですが実は今日、それに関連する(個人的に)驚くべき結果を見つけたため、共有します。 その論文は C. Fefferman ,Reconstructing a neural
前回の記事 mathetake.hatenablog.com にある論文(2-2-9)[1605.07110] Deep Learning without Poor Local Minimaについてのお話です*1。 Abstractを読んだ瞬間に、こんな重要な論文をどうして今まで知らなかったのかと言うぐらい興奮しました。 少し長いですが引用しますと In this paper, we prove a conjecture published in 1989 and also partially address an open problem announced at the Conference on Learning Theory (COLT) 2015. With no unrealistic assumption, we first prove the following state
§1はじめに Deep Learningってどのくらい理論的に解明されているのか?ってやっぱり気になりますよね。 それに関して、次のQuoraのスレッドに非常に有益なコメントがあります。 When will we see a theoretical background and mathematical foundation for deep learning? - Quora How far along are we in the understanding of why deep learning works? - Quora 深層学習界の大御所であるYoshua Bengio、Yann LeCunの二人が 実際ディープラーニングの理論的理解ってどうなのよ?? って質問に直々にコメントしています。 LeCunのコメントの冒頭を少し引用しますと; That’s a very active
こんにちは。タイトルは次の論文から拝借しました; Taking the Human Out of the Loop: A Review of Bayesian Optimization - IEEE Xplore Document という訳で今話題沸騰中(????????)の Bayesian Optimization(ベイズ最適化)についてまとめたいと思います。 また、日本語で「ベイズ最適化」とググるといくつか良い記事が見つかるのでそちらも合わせて参照してみて下さい。いくつかピックアップして、この記事の下の方に”参考記事”としてまとめておきました。 また、佐藤一誠さんの講演動画も導入としてかなり参考になると思います。20分程度なので是非! www.youtube.com しっかりと数学的なセッティングについて言及した記事があまりないように思われたので、そこにフォーカスして書きたいと思いま
お久しぶりの投稿です。 最近修論やらなにやらで機械学習も統計もあまりモチベーションがなかったんですが、復活してきたので書きます。書きます。 今回の記事は、Sumio Watanabe大先生が確立した 特異モデルまでをも包括した*1 歴史上唯一のベイズ統計の理論と、そこから導出されるWAICやその裏側にある数学についてのメモを残したいと思います。 これからWatanabe先生の理論を勉強しようと思ってる人や、その概略だけでも知りたい人向けの記事です、が、あくまでメモです(disclaimer)。 この理論は多様体やら代数幾何やら特異点解消やら、なんだか難しい数学の概念がたくさん出てくると言うタレコミがあるため避けている人が大多数だと思いますが、それらの代数幾何学を理解する事は決してPractitionerが理解したいと思う範囲で本質的ではなく、結局は測度論(ルベーグ積分論)・関数解析・確率解
こんにちは。 今回はInformation Geometryの話ではありません。笑 ネット上、そして市販されている書籍、どこを覗いても Deep Neural Network (以下DNN)の学習やその各種パラメータ調節は難しい、 と言う事実は語っていても どうして難しいのか まで踏み込んで説明してる文章は少ないように思われます。 そしてとんでもなく ヒューリスティックが多い。多い。うざいぐらい多い。 ですので今回のシリーズでは、 特異モデルと呼ばれる統計モデル視点と 特異点と群作用と言う幾何学的な視点から どうしてDNNの学習が難しいのか そして どうしてDNNの理論的理解が乏しいのか を説明したいと思います。 巷に転がっている文章の用に ※※ふわっと解説はしませんので※※ 少々数学的に高度な話になりますが、頑張って噛み砕いて書くので、ついてきてください。 いきなりDNNの話に入る前に、
2016 - 11 - 03 Universal Approximation Theoremと深層学習の有効さ Deep Learning 機械学習 皆さん Universal Approximation Theorem Universal approximation theorem - Wikipedia をご存知でしょうか。 もしこれを知らないで深層学習や 人工ニューラルネットワーク (ANN)を使っている(実装している)としたら、 それは 無免許運転 のようなものでしょう。 お話になりません。 数学的厳密性を犠牲にしてRoughly Speakingで説明すると、 この定理が主張するのは ””適切な活性化関数を使えば、ANNは 任意の関数 を 任意の精度 で近似することが出来る”” と言うものです。 これによってANNの ”強さ” が保証されているわけですが、、、、。 こ
このページを最初にブックマークしてみませんか?
『Obey Your MATHEMATICS.』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く