はじめに 機械学習に関する実用的な知見を知るために、「Kaggleで勝つデータ分析の技術」を読んだので、Kaggle以外の場面でも活用できる話題をまとめてみた。本書は機械学習の基本的な内容も含んでいるが、この記事では機会学習に関する一通りの知識を持ち、実問題に利用している読者を想定してまとめた。従って、勾配ブースティング木の仕組みや、回帰タスクの評価方法等、基本的な内容については解説しない。本記事では、評価の落とし穴や、モデルを改善するための特徴量の工夫、チューニングのTipsについて紹介する。 特徴量 Tips 1: 欠損値の扱い データにはしばしば欠損値が含まれている。欠損値は、そもそも値が存在していない場合の他に、ユーザが意図して入力していない場合や、観測器のエラーによって取得できていない場合等、様々な理由によって生じる。欠損がランダムに発生していない限り、欠損しているという事実が何
![「Kaggleで勝つデータ分析の技術」から見る実用的な機械学習の知見](https://cdn-ak-scissors.b.st-hatena.com/image/square/aa6da68a0f22396eb7be0eeeb25f672dbc89f36f/height=288;version=1;width=512/https%3A%2F%2Fres.cloudinary.com%2Fzenn%2Fimage%2Fupload%2Fs--cCqQAgOd--%2Fc_fit%252Cg_north_west%252Cl_text%3Anotosansjp-medium.otf_55%3A%2525E3%252580%25258CKaggle%2525E3%252581%2525A7%2525E5%25258B%25259D%2525E3%252581%2525A4%2525E3%252583%252587%2525E3%252583%2525BC%2525E3%252582%2525BF%2525E5%252588%252586%2525E6%25259E%252590%2525E3%252581%2525AE%2525E6%25258A%252580%2525E8%2525A1%252593%2525E3%252580%25258D%2525E3%252581%25258B%2525E3%252582%252589%2525E8%2525A6%25258B%2525E3%252582%25258B%2525E5%2525AE%25259F%2525E7%252594%2525A8%2525E7%25259A%252584%2525E3%252581%2525AA%2525E6%2525A9%25259F%2525E6%2525A2%2525B0%2525E5%2525AD%2525A6%2525E7%2525BF%252592%2525E3%252581%2525AE%2525E7%25259F%2525A5%2525E8%2525A6%25258B%252Cw_1010%252Cx_90%252Cy_100%2Fg_south_west%252Cl_text%3Anotosansjp-medium.otf_37%3Ay0%252Cx_203%252Cy_121%2Fg_south_west%252Ch_90%252Cl_fetch%3AaHR0cHM6Ly9zdG9yYWdlLmdvb2dsZWFwaXMuY29tL3plbm4tdXNlci11cGxvYWQvYXZhdGFyLzljNWMzODZmNzguanBlZw%3D%3D%252Cr_max%252Cw_90%252Cx_87%252Cy_95%2Fv1627283836%2Fdefault%2Fog-base-w1200-v2.png)