タグ

ADとデータに関するmonnalisasmileのブックマーク (2)

  • kaggleにpythonを使ってみる(3) 〜sklearn - 忘れないようにメモっとく

    sklearnのランダムフォレストを使う。 前回の予測モデルは、線形モデルのロジスティック回帰。 今回は、ensembleモジュール内にあるランダムフォレストを試してみる。 あと、データを加工するときとか、評価するときの便利メソッドもいくつかメモ。 from sklearn import preprocessing from sklearn import ensemble import pandas as pd 最初にインポートするのは、preprocessingモジュールとensembleモジュール。 sklearn.preprocessing preprocessingモジュールは、生データを処理して、後々の解析に適した整形をしてくれる。 実際に、練習用csvを読み込んで使ってみる。 LabelEncoder()は、カテゴリカルデータを、数値(ラベル)で表現するメソッド。 train

    kaggleにpythonを使ってみる(3) 〜sklearn - 忘れないようにメモっとく
  • 数量の正規化:方法の違いは何を意味するか? - jnobuyukiのブログ

    大量のデータをまとめて、視覚的に表現すると、データが持つ特徴を直感的に理解できることがあります。今回は、データを視覚化する際に施される「正規化」について考えます。wikipediaの正規化の定義は以下のようになっています。 正規化(せいきか、英: normalization)とは、データ等々を一定のルール(規則)に基づいて変形し、利用しやすくすること。 この定義は非常に抽象度が高いですね。その理由についてwikipediaは以下のように述べています。 非常に多くの分野で使われている言葉で、分野によって意味も大きく異なるため、頻度が高い分野についてそれぞれ個別に説明する。 今回は、数量の正規化に話を限定します。しかし、数量の正規化に絞るだけでは、まだその意味がはっきりしません。正規化する方法が沢山あるからです。私の専門の心理学では、行動データとして得たものを多変量解析にかける前に正規化するこ

  • 1