Kaggle BlogOfficial Kaggle Blog ft. interviews from top data science competitors and more!
[概要] 最近のkaggle のコンペのwinning solution で、stacked generalization がよく使われています。これの元になった論文は、1992 年のWolpert さんによるものです。 triskelion さんのブログKaggle Ensembling Guide | MLWave の中でもこの手法についての説明があります。 様々な学習器を上手く組み合わせて、より精度の良いモデルを作ろうというのが基本的な考え方です。具体的には次の図のような感じです。 level 0 は、元となるデータです。またこの場合における各学習器はgeneralizer と呼ばれています。level 0 のデータにgeneralizer を適用して生成されたデータがlevel 1 のデータとなります。 その後も、同様に名づけられています。 [過去のコンペ] まずは、多層パーセプト
Our fall 12-Week Data Science bootcamp starts on Sept 21st,2015. Apply now to get a spot! http://nycdatascience.com/bootcamp/ If you are hiring Data Scientists, call us at +1-888-752-7585 (USA) or reach us at info@nycdatascience.com to share your openings and set up interviews with our excellent students. --------------------------------------------------------------- Come join our meet-up and
Owen Zhang - #1 Ranked Kaggle Data Scientist, Chief Product Officer at DataRobot Link to slides: http://www.slideshare.net/odsc/owen-zhangopen-sourcetoolsanddscompetitions1 This talk shares the presenter’s experience with open source tools in data science competitions. In the past several years Kaggle and other competitions have created a large online community of data scientists. In addition t
PyDataTokyoに触発されたので、Kaggleで上位を取るための戦略、そして神々に近づくための学習戦略を考えてみました。 kaggle master (自慢)ではありますが、kaggle歴は浅いので、いろんな突っ込みどころがあると思います。 1. 初参加 ~ top25% まずはtitanicのtutorialを始めてみる 終わったら、ちゃんとポイントのもらえる本番コンペに参加する お遊びコンペだとなかなか気合いが入らないので(人によります) いろんなコンペがあるが、とりあえず興味があるのに参加してみる 無理そうならあきらめる beat the benchmark(btb)というのがForumに出てくるので、まずはbeat the beat the benchmarkを目指す。これができればtop25%とか行けるのではなかろうか。 ツールの使い方を覚える良い機会 btbは特徴量をそん
This article was originally posted on Kaggle’s Avazu competition forum and reposted here with a few edits. Here I’d like to share what I’ve put together for online learning as a Python package – named Kaggler. You can install it with pip as follows: $ pip install -U Kaggler then, import algorithm classes as follows: from kaggler.online_model import SGD, FTRL, FM, NN, NN_H2 Currently it supports 4
Click-Through Rate prediction: TOP-5 solution for the Avazu contest Dmitry Efimov April 21, 2015 Outline Provided data Likelihood features FTRL-Proximal Batch algorithm Factorization Machines Final results Competition Provided data Device layer: id, model, type Basicfeatures Connection layer: ip, type Time layer: day, hour Banner layer: position, C1, C14-C21 Site layer: id, domain, category Applic
Model ensembling is a very powerful technique to increase accuracy on a variety of ML tasks. In this article I will share my ensembling approaches for Kaggle Competitions. For the first part we look at creating ensembles from submission files. The second part will look at creating ensembles through stacked generalization/blending. I answer why ensembling reduces the generalization error. Finally I
Just finished Otto competition on Kaggle in which took a part 3514 teams. Participiants had to classify products to one from nine categories based on data provided by e-commerce company and had 2 months to build their best solutions. I can say proudly that I've deafeated more than 3400 teams and finally finished competition on 66th position. It's great but still there is a lot of things to learn.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く