都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト Kaggleにおいて、人によってはソリューションを書いてくれているものがあります。特徴量エンジニアリングやアルゴリズムなど業務での参考になるだろうと思われるので、仕事で関わりそうなデータという観点から4つほどですが事例を集めてみました。このような事例のまとまった本とかあったらいいのですが。 基本的に各事例ごとに ・目的 ・どんなデータセット ・どんな特徴量エンジニアリング ・どんなアルゴリズム ・リンク を記していきます。 Walmart Recruiting – S
はじめに 過去に参加したKaggleの情報をアップしていきます. ここでは,BOSCHのカーネルで公開されていた便利なコードをピックアップします. コンペ概要や優勝者のコードに関しては,Kaggleまとめ:BOSCH(intro+forum discussion),Kaggleまとめ:BOSCH(winner)にまとめており,こちらはサンプルコードを交えたデータの解析結果をまとめたものになります. 本記事はPython2.7, numpy 1.11, scipy 0.17, scikit-learn 0.18, matplotlib 1.5, seaborn 0.7, pandas 0.17を使用しています. jupyter notebook上で動作確認済みです.(%matplotlib inlineは適当に修正してください) サンプルスクリプトを実行した際にエラー等あった場合は,コメント
こんにちは、PyData.Tokyoオーガナイザーのシバタです。ボストンに向かう飛行機の中でこの記事を書き始めました。私事ですが、昨年12月よりDataRobot,Inc(下記「データロボット社」)という会社で働き始めました。今回は昨年10月に行われたPyData.Tokyo Meetup #6と今年2月に行われたPyData.Tokyo Meetup #7でのデータマイニングコンペをテーマに行った勉強会の様子をお伝えしたいと思っています。実はデータロボット社は多数のコンペ入賞者が働いていることで知られており、2つの勉強会に非常に関連の深い会社です。 DataRobot,Inc PyData.Tokyo Meetup #6 PyData.Tokyo Meetup #7 PyDataではこれまで機械学習や深層学習などデータ分析関連技術をテーマ別に扱ってきましたが、今回のテーマは、技術というよ
皆さんこんにちは お元気ですか。私は元気です。 今日は前回の以下のページからだいぶ更新が立ち、Kaggleのコンペ的にも多くの開催がありました。 そこで、新しいページでリンクを纏めてみました。 中にはインタビューやフォーラム、githubなど様々なものが混合しているのはお許し下さい。 nonbiri-tereka.hatenablog.com Prudential Life Insurance Assessment 1st - 1st place solution - Prudential Life Insurance Assessment | Kaggle 2nd - Solution -- 2nd place - Prudential Life Insurance Assessment | Kaggle Homesite Quote Conversion 3rd- Homesite Q
Kaggle – Airbnb New User Bookingsのアプローチについて(Kaggle Tokyo Meetup #1 20160305)
♫ Alarm bells ring, are you listening? Santa's sleigh has gone missing ♫
Walmart2015については、CrowdFlowerのSolutionを参考にしながら、いろいろと考えながらやってました。 結局xgboostとneural netのstackingくらいしかできませんでしたが。。(38th/1047) その中で、kaggleの問題に対して”解”を出すのにあたって、どういうポイントがあり、どのように進めていくべきかの”構造”を考えてみました。 kaggle masterだけど機械学習は素人なので、突っ込みどころはいっぱいあると思います。ご指摘やこんな資料があるなど、教えていただければ助かります。 1 – 特徴量作成・管理 何だかんだいっても特徴量作成は重要で、重要な特徴量を逃すと勝ち目はないでしょう。 逆に適切な特徴量が作れれば、xgboostだけで勝てることもあるようです。(cf. Rossmann) 特徴量はN * M(N:ID, M:要素数)の数
Beating Kaggle the easy way Studienarbeit Ying Dong Wirtschaftsinformatik I Ying Dong Studiengang: Master Wirtschaftsinformatik Studienarbeit Thema: " Beating Kaggle the easy way" Eingereicht: 22. Juli 2015 Betreuer: Dr. Frederik Janssen Prof. Dr. Johannes Fürnkranz Fachgebiet Knowledge Engineering Group Fachbereich Informatik Technische Universität Darmstadt Hochschulstraße 10 64289 Darmstadt I C
Home プレスルーム ホールディングスのプレスリリース リクルート、世界最大のデータサイエンティストコミュニティ"Kaggle"と日本企業初の共催となるデータ予測コンペティション「RECRUIT Challenge - Coupon Purchase Prediction」開催を決定 株式会社リクルートホールディングス(本社:東京都千代田区、代表取締役社長 兼 CEO:峰岸真澄、以下リクルート)の人工知能(AI)の研究機関であるRecruit Institute of Technology(以下、RIT)は、世界最大のデータサイエンティストコミュニティであるKaggle(https://www.kaggle.com)において、日本企業として初の共催となるデータ予測コンペティション「RECRUIT Challenge - Coupon Purchase Prediction」を開催いたしま
Model ensembling is a very powerful technique to increase accuracy on a variety of ML tasks. In this article I will share my ensembling approaches for Kaggle Competitions. For the first part we look at creating ensembles from submission files. The second part will look at creating ensembles through stacked generalization/blending. I answer why ensembling reduces the generalization error. Finally I
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く