Walmart2015については、CrowdFlowerのSolutionを参考にしながら、いろいろと考えながらやってました。 結局xgboostとneural netのstackingくらいしかできませんでしたが。。(38th/1047) その中で、kaggleの問題に対して”解”を出すのにあたって、どういうポイントがあり、どのように進めていくべきかの”構造”を考えてみました。 kaggle masterだけど機械学習は素人なので、突っ込みどころはいっぱいあると思います。ご指摘やこんな資料があるなど、教えていただければ助かります。 1 – 特徴量作成・管理 何だかんだいっても特徴量作成は重要で、重要な特徴量を逃すと勝ち目はないでしょう。 逆に適切な特徴量が作れれば、xgboostだけで勝てることもあるようです。(cf. Rossmann) 特徴量はN * M(N:ID, M:要素数)の数