rishidaのブックマーク - はてなブックマーク

"Understanding Dropout" (Baldi, NIPS 2013) メモランダム - 渋谷駅前で働くデータサイエンティストのブログ

ちょっと今週は忙し過ぎて新しいことに取り組んでいる時間が1秒たりとも見つからないので、少し前にやった例の弊社分析チーム論文輪読会のネタをそのまま転載しておきますorz　元ネタはこちら。ちなみに式を丸写しするのは面倒だったので、あくまでも資料として必要な部分にしかtexは書いてませんｗ　ということで上記リンクから元論文をDLした上で、見比べながらお読みくださいｗ 1 Introduction そもそもdropoutはNIPS 2012で提案されたナイスなアイデアで、汎化性能は高めるし良いことずくめ。ランダムフォレストで個々の木ごとにランダムに素性を選択するのと同じように、サンプルごとに形成されるNN同士の相関を下げ、精度向上に貢献する。けれどもその理論的背景は今のところ不明。なので、0.5という数字にこだわる必要があるのかどうかも分からないし、層ごとに変えた方がいいんじゃないかとかそうい

rishida 2014/12/16

“dropout ratio = 0.5の時にL2正則化の効果が最大になる”

リンク

パッケージユーザーのための機械学習：教師あり学習同士で分離超平面・決定境界を比較してみる - 渋谷駅前で働くデータサイエンティストのブログ

このシリーズ記事では、Rで*1色々な機械学習のアルゴリズムについて、それらがどんなものなのかを簡単なデータに対して分離超平面・決定境界を描きながら見てきました。パッケージユーザーのための機械学習(1)：決定木 - 銀座で働くデータサイエンティストのブログパッケージユーザーのための機械学習(2)：ロジスティック回帰 - 銀座で働くデータサイエンティストのブログパッケージユーザーのための機械学習(3)：サポートベクターマシン(SVM) - 銀座で働くデータサイエンティストのブログパッケージユーザーのための機械学習(4)：ニューラルネットワーク - 銀座で働くデータサイエンティストのブログパッケージユーザーのための機械学習(5)：ランダムフォレスト - 銀座で働くデータサイエンティストのブログということで今回はおさらいとして、これまで見てきた教師あり学習同士で分離超平面・決定境界のプ

rishida 2014/01/09

機械学習

リンク

パッケージユーザーのための機械学習(3)：サポートベクターマシン(SVM) - 渋谷駅前で働くデータサイエンティストのブログ

（※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります） PythonでSMO-SVM書き下すという宿題がまだ終わってないくせにこれ書いていいのか物凄く迷うんですが（笑）、R Advent Calendar 2013の12月6日分第6回の担当に当たっているのでついでに書いちゃいます。なのですが。実はその12月6日は米ネバダ州・タホ湖畔で開催中のNIPS 2013に参加中*1でupできるかどうか分からない*2ので、タイムスタンプ変えて予めupさせてもらいました。ルール破っちゃってごめんなさい。。。ということで、今回の参考文献はこちら。未だに評は分かれるみたいですが、僕が推すのはいわゆるSVM赤本こと『サポートベクターマシン入門』です。サポートベクターマシン入門作者: ネロクリスティアニーニ,ジョンショー‐テイラー,Nello Cristianini,Jo

rishida 2013/12/03

リンク

パッケージユーザーのための機械学習(1)：決定木 - 渋谷駅前で働くデータサイエンティストのブログ

（※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります）だいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPythonで実装した次にMatlabで書いたSMO-SVMコードをPythonに移植しようと思っているうちに時間が過ぎ。。。あまつさえ転職したら、今の現場にはライブラリ皆無でほぼ全ての機械学習のコードをPython / Java / C++のどれでも書ける化け物^H^H「教授」がいてそんなこと僕がやる必要性は完全になくなってしまったのでした（笑）。ということで、カテゴリ名はそのまま*1ながら方向性を変えて、僕のようなパッケージやライブラリに依存するユーザーが機械学習を実践する際に原理上のどのような点に気を付けて実装・実践すべきかを、僕自身の備忘録のためにだらだらと書いていくシリーズにしてみようと思います

rishida 2013/11/27

2013-11-21 パッケージユーザーのための機械学習(1)：決定木 R Python 機械学習糞コードで頑張る機械学習シリーズだいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPython

リンク

Rで季節変動のある時系列データを扱ってみる - 渋谷駅前で働くデータサイエンティストのブログ

Rで計量時系列分析シリーズでだいぶ時系列データの話をしてきたわけですが、最近個人的に季節変動のあるデータを扱うケースが増えてきたので、備忘録的にまとめてみようかなと。一般に、webデータサイエンスの領域で季節変動というと業種や領域にもよるものの、おおむね週次*1 月次*2 四半期ごと*3 年次or12ヶ月ごと*4 辺りが多いと理解してます（もちろん必ずしもこればかりではないので念のため）。ちなみにこの辺の大ざっぱなまとめが「季節調整」のWikipedia項目に書かれているので、そちらもどぞー。この辺の処理はRだとかなりお手軽にできるんですが、結構Rならではの約束ごとが多くていきなりやろうとすると「何じゃこりゃ？？？」みたいなことになりがちです。ということで、その辺のポイントをざっくりまとめておきました。必要なRパッケージ今回は{forecast}だけインストールして展開しておけば

rishida 2013/10/31

2013-10-30 Rで季節変動のある時系列データを扱ってみる R 時系列分析 Rで計量時系列分析シリーズでだいぶ時系列データの話をしてきたわけですが、最近個人的に季節変動のあるデータを扱うケースが増えてきたので、備忘録

リンク

第30回データマイニング+WEB＠東京(#TokyoWebmining 30th)でお話してきました - 渋谷駅前で働くデータサイエンティストのブログ

タイトルを読んで字の如く、昨日10/19（土）開催のこちらの勉強会でお話してきました。第30回データマイニング+WEB＠東京( #TokyoWebmining 30th)−機械学習活用・マーケティング祭り− を開催しました - hamadakoichi blog TokyoRの時と同様、いつもTwitter上でのみやり取りしている方々と直でお目にかかれて、嬉しかったです。また、色々な方々から「ブログ読んでます」とお声をかけていただき、光栄でしたー。ということで、今回お話したテーマはこちら。他のお三方の発表がレベルが高かったので、こんな発表でいいのか？と思いながら話してました（笑）。計量時系列分析の立場からビジネスの現場のデータを見てみよう - 30th Tokyo Webmining from Takashi J Ozaki TokyoRの時はCRANパッケージの使い方の話がメイ

rishida 2013/10/24

via はてなブックマーク - rishida のブックマーク - お気に入り http://b.hatena.ne.jp/rishida/favorite

リンク

2013年秋版：データサイエンティストを目指すなら揃えておくべき10冊 - 渋谷駅前で働くデータサイエンティストのブログ

5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」について書かれた書籍などを加えて、「2013年秋版」の10冊をチョイスしてみました。これはあくまでも「データサイエンティストを目指す上で必要な素地が既にある程度備わっている人」向けのスタートアップとしての10冊です。実際にはこの10冊では知識が足りなくなる場面の方が多いので、その場合は適宜発展的な書籍に当たってどんどん独習していくことをお薦めします。逆に、本当にゼロからスタートする初学者の人にはこれでもかなり辛いかもなので、今回は見なかったことにしてください、ということで。。。そうそう、相変わらずですが僕個人はアフィリエイトやってないので、こちらのリンクから書籍を購入されても儲かるのは僕ではなくはてなです（笑）。（※

rishida 2013/10/09

スターをつけました 5ヶ月前に書いた記事がだいぶ陳腐化してきた*1気がするので、それ以降出版された書籍や、他にも学術的知識を得るだけでなく「データサイエンティストとして働く上で必要なスキル」に via 2013年秋版

save2ever

リンク

Rで機械学習するならチューニングもグリッドサーチ関数orオプションでお手軽に - 渋谷駅前で働くデータサイエンティストのブログ

ちょっと調べてみたらタイトルの件について言及してる記事があまり多くなかったので、ざっくり書いてみます。なお、この記事はid:shakezoさんの実務でRandomForestを使ったときに聞かれたことへのオマージュです。というか、実は僕もこの記事を読んでから「多分Rなら専用の関数なんかもあるだろうし簡単にできるはず」と思って以前よりも積極的にやるようになったのでした（笑）。総論：何で機械学習するのにチューニングが必要なの？どんな機械学習でも、何かしらのチューニングパラメータを持っています。例えばソフトマージンSVMならマージンパラメータCがありますし、非線形ガウシアンカーネルSVMならさらにカーネルパラメータのσとかが入ります。SMO（逐次最大最適化）アルゴリズムを利用するのであれば、さらにさらにtoleranceとかも入ってきます。しかも、ちょっといじってみればすぐ分かると思う

rishida 2013/09/29

via 機械学習 - Google Blog Search http://www.google.com/search?q=%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92&ie=utf-8&tbm=blg

リンク

「使い分け」ではなく「妥当かどうか」が大事：重回帰分析＆一般化線形モデル選択まわりの再まとめ - 六本木で働くデータサイエンティストのブログ

先日の記事はおかげさまで好評をいただいたんですが、勉強中の身で教科書を確認せずに書いたこともあり多数ツッコミをいただきました。ツッコミをいただけるというのはもちろん大変良い勉強の機会になるということで*1、今回もひとしきり勉強してみました。ということで、自戒も込めて備忘録的に勉強したことをまとめておこうと思います。今回はあまり広く読んでもらう内容ではないので、不親切かもしれませんがごめんなさい。ただし、あまりにも理論的側面ばかり色々書いても何なので、インターネット広告業界の言葉で喩えて言うなら「クリック数*2をモデリングしたい場合」と「コンバージョン数*3をモデリングしたい場合」とに分けた、と理解してもらえたら良いかなと思ってます。今回も参考文献は久保本です。一般化線形モデルまわりではこの本より分かりやすい本は依然としてないと思います。データ解析のための統計モデリング入門――一般化線

rishida 2013/09/24

統計

リンク

ここ最近の博士人材の動向を見ながら感じていること - 渋谷駅前で働くデータサイエンティストのブログ

ここ最近、データ分析業界では有名な博士人材の方々が相次いでアカデミア（学術界）から離れる事態になっているようで。また、それに輪をかけるかのようにキツいオチのついたブログ記事も人気を集めている模様で。大学院をやめました｜Colorless Green Ideas 言うなれば、優秀な船員がどんどん降りていく船のように感じられた。もしかして操船する者がいなくなって沈没するのではないかとも思った。「残った船員だけでも船は問題なく動くさ」と言う人もいる。実際、船はそう簡単に沈没するものではない。だが、一度抱いた不安はなかなかぬぐえなかった。起業しました - はやしのブログ Rev.3 ちなみに優秀であれば業界の状況はさして障害になりません。上位10人とかそういうレベルの話ですが（適当ですが、社会学は規模が小さいので）。なので、自分が優秀であるという自信があるのであれば、業界がどんな状況かは関係な

rishida 2013/09/14

アカデミアの方が研究楽しいけれど、辛すぎて無理

リンク

ディスプレイ広告のクリック数改善のためのデザイン最適化に、ポアソン分布 / 負の二項分布によるGLMを使ってみる - 渋谷駅前で働くデータサイエンティストのブログ

これはディスプレイ広告に限った話ではないと思うんですが、あるPC / スマホ上の何かしらのクリエイティブに対するクリック数がそのデザインの良し悪しによって左右されるということは、web業界ではよく知られているかと思います。そういう場合「どんなデザインがクリック数を増やすのに有効か？」というのは、厳密にはきちんと条件統制をかけて実験計画法に基づいてデザインしたA/Bテストなどで調べるべきなんでしょうが、そこまで綿密にやっている余裕のない現場も結構多いはず。そこで、今回は既に計測済みの各広告のクリック数（CTRでしか得られていないようであれば実クリック数に直すものと想定する）データが得られているものと仮定して、それを各広告のデザイン要素を表すインデックス（二値orカテゴリカルデータ）のデータと組み合わせて、「どんなデザインをすればクリック数が増えるか？」を推定するというケースを想定してRで

rishida 2013/09/12

これはディスプレイ広告に限った話ではないと思うんですが、あるPC / スマホ上の何かしらのクリエイティブに対するクリック数がそのデザインの良し悪しによって左右されるということは、web業界ではよく知られているか

リンク

何も考えずに線形回帰すると怖いので、計量時系列分析でダメ押ししてみる - 渋谷駅前で働くデータサイエンティストのブログ

何気なく読んでいて、途中で「？」と思った記事がありました。 IT エンジニアのためのデータサイエンティスト養成講座（5）：「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある？――データ分析方法についての検討 (1/5) 何をやっているのかなー、と思って読み進めていったら一つ引っ掛かるところが。まず、この特集で扱っているのは「気温」と「電力消費（の日次最大値）」という時系列データなんですよね。なのに、4ページ目で普通に線形単回帰してます。時系列をプロットしたのを眺めれば、どう見たって互いに相関しているのは丸分かりなのでどう計算しても構わないなんていうのは一目瞭然なんですが、それでも手法の説明のところで「時系列分析(ARMA / ARIMA)」とか言っているので、もうちょっと色々その辺を踏まえた何かがあっても良いのかなと思ったのでした。ということで、いつもながらRで見てみよ

rishida 2013/09/02

何気なく読んでいて、途中で「？」と思った記事がありました。 ITエンジニアのためのデータサイエンティスト養成講座（5）：「ビールと紙おむつ」のような相関関係を探る分析手法にはどんなものがある？――データ分

リンク

なぜ項目ごとに単純な集計をするより、多変量解析（重回帰分析）をした方が正確な結果を返すのか - 渋谷駅前で働くデータサイエンティストのブログ

ちょっと前の記事（単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース）に裏先生からツッコミを頂き、慌てて学部1年生の頃の教科書を開いて復習しまして。。。いやー、忘れてることが多過ぎて大変（汗）。知るは一時の恥というのをつくづく思い知りましたとさ。本当に裏先生ありがとうございました。ということで、その復習内容の確認と同時に、あの時の裏先生のツッコミ内容をかみくだいて紹介するのも兼ねて、ここはひとつざっくり書いてみようかと思います。項目ごとの単純集計は「単変量」解析（もっと言えば単相関）に過ぎず、多変量データ全体のことは分からない前回用いたサンプルデータは、基本的にはa1-a7が0or1のみの二値で構成される事実上のカテゴリカルデータ*1で、cvも"Yes"or"No"のみの二値で構成されるカテゴリカルデータです。で、二値のカテゴリカルデータだけで構成されてい

rishida 2013/08/23

2013-08-15 なぜ項目ごとに単純な集計をするより、多変量解析（重回帰分析）をした方が正確な結果を返すのか R 統計学ちょっと前の記事（単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース

リンク

Rで計量時系列分析：状態変化を伴うモデル（閾値モデル、平滑推移モデル、マルコフ転換モデル） - 渋谷駅前で働くデータサイエンティストのブログ

前回の記事までは多変量時系列モデルとしてのVARモデルを扱ってきました。今回は一旦このシリーズの最終回ということで、元の単変量時系列モデルに戻って「状態変化を伴うモデル」を扱ってみようと思います。ということでもはや毎回恒例になってますが、使用テキストはいつもの沖本本です。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見るただし今回の最後に出てくるマルコフ転換モデルは沖本本の説明では不足と思われるので、Hamilton本もあった方が良いです。 Time Series Analysis 作者: James D. Hamilton出版社/メーカー: Princeton Univ Pr発売日: 1994/01/11メ

rishida 2013/08/23

2013-08-22 Rで計量時系列分析：状態変化を伴うモデル（閾値モデル、平滑推移モデル、マルコフ転換モデル） R Matlab 時系列分析前回の記事までは多変量時系列モデルとしてのVARモデルを扱ってきました。今回は一旦このシリ

リンク

「アカデミアの博士がデータサイエンティストに生まれ変わって企業に転身するための5つの秘訣」（海外記事紹介） - 渋谷駅前で働くデータサイエンティストのブログ

こんな大変面白い記事が紹介されているのを見かけました。 From PhD to Data Scientist:5 tips for Making the Transition そもそもこのサイト自体が「6週間でポスドクをデータサイエンティストに生まれ変わらせる」*1プログラムの公式サイトのようです。日本でも統数研がそのような試みを始めようとしていますが、さすがは本場アメリカ。もう既にやってるところがあるんですねー。トップページを見るとこのプログラムの卒業生が一部紹介されていますが、その（元の）専門分野は物理学・数学・応用数理学・オペレーションズリサーチ・天体物理学・生態学*2と、もうまちまちです。こんな「素人目にはとてもデータサイエンスと関係するとは思えない」*3人たちをデータサイエンティストになるべく鍛え上げ、Facebook, YouTube, LinkedInといったシリコンバレー

rishida 2013/08/08

2013-08-03 「アカデミアの博士がデータサイエンティストに生まれ変わって企業に転身するための5つの秘訣」（海外記事紹介）データサイエンティストこんな大変面白い記事が紹介されているのを見かけました。 From PhD to Dat

リンク

単純な集計とデータサイエンスによる分析とで結果が食い違うかもしれない3ケース - 渋谷駅前で働くデータサイエンティストのブログ

一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。なので、普段はDB上でSQL（というかHiveなど）でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、食い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり

rishida 2013/08/07

via はてなブックマーク - rishida のブックマーク - お気に入り http://b.hatena.ne.jp/rishida/favorite

リンク

Rで計量時系列分析：VARモデルの基礎（多変量時系列モデル） - 渋谷駅前で働くデータサイエンティストのブログ

前回の記事では単変量の時系列までを扱いました。今回は多変量（ベクトル）時系列を記述するVARモデルとその周辺のポイントを取り上げます。ということでしつこいですが、使用テキストはいつもの沖本本です。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。必要なRパッケージ {vars}をインストールして展開して下さい。{forecast}や{tseries}などは今回は特に使いません。多変量における自己相関、定常性など単変量時系列過程の際にさんざん自己相関やら定常性やらうるさく言っておいて、まさか多変量にした時にガン無視ってわけにもいきませんの

rishida 2013/07/26

2013-07-25 Rで計量時系列分析：VARモデルの基礎（多変量時系列モデル） R 時系列分析前回の記事では単変量の時系列までを扱いました。今回は多変量（ベクトル）時系列を記述するVARモデルとその周辺のポイントを取り上げ

リンク

Rで計量時系列分析：AR, MA, ARMA, ARIMAモデル, 予測 - 渋谷駅前で働くデータサイエンティストのブログ

前回の記事では計量時系列分析とは何ぞや？みたいなところをやりましたので、今回はいろはのイともいえるARIMAまわりから始めていこうと思います。ということで改めて、使用テキストはいつものこちらです。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。必要なRパッケージ {forecast}をインストールして展開して下さい。Rそのものの初心者向け説明はここでは全面的に割愛するので、適宜何かしらの初心者向け説明をご参照あれ。今回のモデルで目指すもの前回の記事では、要は「自己相関が大事よー」という話を何度もしました。ということは、時系列モデリング

rishida 2013/07/13

2013-07-12 Rで計量時系列分析：AR, MA, ARMA, ARIMAモデル, 予測 R 時系列分析前回の記事では計量時系列分析とは何ぞや？みたいなところをやりましたので、今回はいろはのイともいえるARIMAまわりから始めていこうと思います。

リンク

Rで計量時系列分析：はじめに覚えておきたいこと - 渋谷駅前で働くデータサイエンティストのブログ

機械学習は全然専門ではない僕が知ったかぶりをするのも何なので*1、もっともっと以前からそこそこやっている*2計量時系列分析の話でもしてお茶を濁してみることにします（笑）。もうしつこ過ぎて自分でも嫌になってきたんですが（笑）、このシリーズでベースにするテキストは以下の2冊。沖本テキストとHamiltonテキストです*3。他にも良いテキストはあるんじゃないかと思いますが、ここではこの2冊をベースにしていきます。なお、ほとんど沖本テキストからの抜粋なのでお持ちの方はそちらを読んでもらった方が圧倒的に早いです、悪しからず。経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者: 沖本竜義出版社/メーカー: 朝倉書店発売日: 2010/02/01メディア: 単行本購入: 4人クリック: 101回この商品を含むブログ (6件) を見る Time Series Analysis 作者

rishida 2013/07/05

2013-07-04 Rで計量時系列分析：はじめに覚えておきたいこと R 時系列分析機械学習は全然専門ではない僕が知ったかぶりをするのも何なので*1、もっともっと以前からそこそこやっている*2計量時系列分析の話でもしてお茶を

リンク

意外と見極めにくい「CVR向上に最も貢献する行動パターン」 - 渋谷駅前で働くデータサイエンティストのブログ

割とどこの現場でもやっている分析として「CVR向上に最も貢献する行動パターン」の同定・抽出というのがあると思うんですが、これって簡単なようで意外と難しいポイントがゴロゴロしてるんですよね。例えばユーザー行動ログDBからソシャゲのイベントA, B, C...をやったかやらないかをフラグとしたテーブルを抽出し、CVのラベルとして「1週間以内に課金したorしない」*1みたいなのを与えて、 UserID Event A Event B Event C Event D ... CV 1001 1 0 1 1 ... Yes 1002 1 1 1 0 ... Yes ... ... ... ... ... ... ... 10X4 0 1 0 0 ... No 10X5 0 0 0 1 ... No ... ... ... ... ... ... ... というような生データ*2を得ているものとここ

rishida 2013/06/29

意外と見極めにくい「CVR向上に最も貢献する行動パターン」 - 道玄坂で働くデータサイエンティストのブログ 2013-06-19 意外と見極めにくい「CVR向上に最も貢献する行動パターン」機械学習アナリティクスデータマイニング

リンク

はてなブックマーク

タグ

ブックマーク / tjo.hatenablog.com (25)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス