MLSE(機械学習工学研究会) Advent Calendar 2018 の1日目の投稿です こんにちは!BULBのデータサイエンティスト 足立です。 一般的に「分析作業の7〜8割はデータの前処理である」と言われます。前処理では具体的に、データセットの列(変数)選択や行(レコード)選択、欠損値の補間や外れ値の除去などの作業を行います。 なぜこのような作業が必要なのでしょうか? それは、課題解決につながる結果を得るために、例えば精度の高いモデルを作成するためです。精度の高いモデルを作成するために、どのようにデータを前処理して特徴量を作り出すかが腕の見せどころですね 特徴量とは何か ご存知の方も多いと思うので、サラッとした説明にとどめておきます。特徴量とは、他のデータとは異なる「そのデータ自身が持つ特徴」です。例えば、画像の被写体が犬か猫かによって、画像のピクセル値は異なります。また、メールが
![データをなるはやで前処理したい#1 - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/a85dc96241be8ef06b43da4ba92a46acf997366b/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-1150d8b18a7c15795b701a55ae908f94.png%3Fixlib%3Drb-1.2.2%26w%3D1200%26mark%3Dhttps%253A%252F%252Fqiita-user-contents.imgix.net%252F~text%253Fixlib%253Drb-1.2.2%2526w%253D840%2526h%253D380%2526txt%253D%2525E3%252583%252587%2525E3%252583%2525BC%2525E3%252582%2525BF%2525E3%252582%252592%2525E3%252581%2525AA%2525E3%252582%25258B%2525E3%252581%2525AF%2525E3%252582%252584%2525E3%252581%2525A7%2525E5%252589%25258D%2525E5%252587%2525A6%2525E7%252590%252586%2525E3%252581%252597%2525E3%252581%25259F%2525E3%252581%252584%2525EF%2525BC%252583%2525EF%2525BC%252591%2526txt-color%253D%252523333%2526txt-font%253DHiragino%252520Sans%252520W6%2526txt-size%253D54%2526txt-clip%253Dellipsis%2526txt-align%253Dcenter%25252Cmiddle%2526s%253D32c553a91af01571fa8f60ef24a8c27a%26mark-align%3Dcenter%252Cmiddle%26blend%3Dhttps%253A%252F%252Fqiita-user-contents.imgix.net%252F~text%253Fixlib%253Drb-1.2.2%2526w%253D840%2526h%253D500%2526txt%253D%252540adachi-h%2526txt-color%253D%252523333%2526txt-font%253DHiragino%252520Sans%252520W6%2526txt-size%253D45%2526txt-align%253Dright%25252Cbottom%2526s%253D55bc3c922a4d79d27f8453550b2fe465%26blend-align%3Dcenter%252Cmiddle%26blend-mode%3Dnormal%26s%3Ded2b9bcf89bf08276053e22aed63ab5c)