タグ

2020年10月16日のブックマーク (1件)

  • 最低限知っておくべきデータの前処理 - Qiita

    はじめに データの前処理とは、データをモデルに学習させる前に行う処理のことです。 料理でいうところの下ごしらえです。 下ごしらえの良し悪しで料理の味(分析結果)も劇的に変わります。 個人的にはデータの前処理はモデルの構築と同じくらい大切な過程だと思っています。 この記事では「前処理の理論」に加えて、「主にpandas, scikit-learnを用いた実装方法」について解説していきたいと思います。 TL;DR 以下概要 1.欠損値の処理 欠損値とは何らかの理由で値が欠損している場合です。 理由は様々ですが、例えばアンケート調査で空欄のままになっている項目があったりするときなどに起こり得ます。 残念ながら、ほとんどの計算ツールは欠損値に対処できないか、欠損値を無視した場合に予期せぬ結果を生み出します。 よって欠損値に適切な対処を施すことが重要になります。 2.特徴量のスケーリング 簡単にいう

    最低限知っておくべきデータの前処理 - Qiita