Kaggle BlogOfficial Kaggle Blog ft. interviews from top data science competitors and more!
![Kaggle Blog – Medium](https://cdn-ak-scissors.b.st-hatena.com/image/square/99c43c653619f4f9846c685d8bd2fdb9eb8e0b5a/height=288;version=1;width=512/https%3A%2F%2Fcdn-images-1.medium.com%2Fmax%2F1200%2F1%2A9izrRVNdAJa9bFaqBwSH4w.png)
Click-Through Rate prediction: TOP-5 solution for the Avazu contest Dmitry Efimov April 21, 2015 Outline Provided data Likelihood features FTRL-Proximal Batch algorithm Factorization Machines Final results Competition Provided data Device layer: id, model, type Basicfeatures Connection layer: ip, type Time layer: day, hour Banner layer: position, C1, C14-C21 Site layer: id, domain, category Applic
本日8月6日に駒場で開かれた日本生態学会関東地区会公開シンポジウム「非ガウス性/非線形性/非対称性からの因果推論手法:その使いどころ・原理・実装を学ぶ」通称因果フェスにて、Granger因果について話してきました。 ちなみに事前に林岳彦(id:takehiko-i-hayashi)先生からご紹介下さった記事がこちら。林先生、この度はお招き下さいまして有難うございました&業務対応のため遅れて会場入り&直後に退出という慌ただしいスケジュールになってしまい大変失礼いたしました。。。また色々お話させていただければ幸いです。 ということで、既にslideshareに資料をupしてあります。まぁいつも通りというか2年前に何度か計量時系列分析について話した時のスライドを下敷きにしてますが、当時より学術的な集会での講演ということで幾つか理論的基礎についても触れてあります。 Granger因果による 時系列
こんにちは。林岳彦です。エ・レ・ファ・ン・ト・カ・シ・マ・シ(←滝川クリステル風に声に出して読みたい日本語)。 さて。 今回は8月6日に迫った日本生態学会関東地区会シンポジウム(a.k.a 因果フェス)についてのプレビューを書いてみたいと思います。 今回のシンポにおける問いを一言で言うと:「系列Aと系列Bはいかなる関係か?(*但し共変量および背景に関する情報は無いものとする*)」 統計的因果推論というと「介入効果/措置効果の推定」のことを思い浮かべる方も多いのかもしれませんが、そのテーマは昨年に扱いました。 で、今年については本質的には以下の問いが中心になると言えるのかなと思います: 「系列Aと系列Bはいかなる関係かについて答えよ(*但し共変量および背景に関する情報は無いものとする*)」 はい。 これはシンプルではありますが非常に奥の深い問いです。 今回のシンポでは、この問いに対する4つの
ベイズ統計学の基礎概念からW理論まで概論的に紹介するスライドです.数理・計算科学チュートリアル実践のチュートリアル資料です.引用しているipynbは * http://nhayashi.main.jp/codes/BayesStatAbstIntro.zip * https://github.com/chijan-nh/BayesStatAbstIntro を参照ください. 以下,エラッタ. * 52 of 80:KL(q||p)≠KL(q||p)ではなくKL(q||p)≠KL(p||q). * 67 of 80:2ν=E[V_n]ではなくE[V_n] → 2ν (n→∞). * 70 of 80:AICの第2項は d/2n ではなく d/n. * 76 of 80:βH(w)ではなくβ log P(X^n|w) + log φ(w). - レプリカ交換MCと異なり、逆温度を尤度にのみ乗す
1) Canonical correlation analysis (CCA) is a statistical method that analyzes the correlation relationship between two sets of multidimensional variables. 2) CCA finds linear transformations of the two sets of variables so that their correlation is maximized. This can be formulated as a generalized eigenvalue problem. 3) The number of dimensions of the transformed variables is determined using Bar
pandas でそこそこ大きいデータを扱う場合、その処理速度が気になってくる。公式ドキュメントではパフォーマンス向上のために Cython や Numba を使う方法を記載している。 Enhancing Performance — pandas 0.16.2 documentation が、軽く試したいだけなのに わざわざ Cythonや Numba を使うのは手間だし、かといってあまりに遅いのも嫌だ。そんなとき、pandas 本来のパフォーマンスをできるだけ維持するためのポイントを整理したい。 pandas に限らず、パフォーマンス改善の際にはボトルネックの箇所によってとるべき対策は異なる。pandas では速度向上/エッジケース処理のために データの型や条件によって内部で処理を細かく分けており、常にこうすれば速くなる! という方法を出すのは難しい。以下はこの前提のうえで、内部実装からみ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く