ArcWaterCashのブックマーク - はてなブックマーク

kaggleで予測モデルを構築してみた (3) - データの構成を確認する - About connecting the dots.
ということで，前回に引き続きタイタニックのデータを使って分析をしていきましょう．といっても今回は判別手法から戻って，データの前処理のお話です．データの前処理とは今回のデータはところどころに欠損があったり，推測の値が入っていたりして，機械学習にかけるにはわりと"汚い"データだといえるでしょう．そんなときに，前回のように適当な補完をしていたのでは，得られるはずの精度も得られなくなってしまいます．勝負は機械学習のパラメタチューニングをする前の，データ取得とデータ加工にかかっていることが多いです．今回のデータは与えられたものであるため，データの取得部をがんばることはできません．なので，データの前処理をしていかに元の情報を損なわないように解析にかけてあげるか，というのがポイントになってきます．まずはデータを眺めるということで，まずはデータをじっくりと眺めてあげます．今回データセットに含まれ
ArcWaterCash 2018/07/29
kaggle
リンク
1

はてなブックマーク