タグ

ブックマーク / qiita.com/takubb (2)

  • 【データ分析】新規データを受領したら最初にすべき10ステップ - Qiita

    はじめに 新規データを受領した際に、統計モデリングや機械学習の前に実施すべき10ステップをまとめてみました すぐにモデリングや機械学習による予測・分類をしたくなりますが、間違えた分析結果や作業の手戻りを避ける為に基的な下記ステップをまず実施することが重要と思います データ型の確認 データ形の変換(日付型) データ形の変換(カテゴリ型の作成) 基統計量の算出 単変量データの可視化 異常値の置換・除去 欠損値の補完・除去 相関(数値×数値)の可視化:ペアプロット&相関行列 相関(数値×カテゴリ)の可視化:ボックスプロット 相関(カテゴリ×カテゴリ)の可視化:ヒートマップ 対象データ概要 今回はサンプルとして下記のようなデータを対象にします 有名なTitanicのデータを加工しました(オリジナルデータは現実には存在しないくらい綺麗だったので) こちらのデータを参考に10ステップを紹介していこ

    【データ分析】新規データを受領したら最初にすべき10ステップ - Qiita
  • 【厳選】Python実務データ分析でよく使う手法(分析手法編) - Qiita

    はじめに データ分析実務において、前処理や集計・可視化後によく行う分析手法をまとめました 前処理編とデータ集計・可視化編の続きです ここでいう「実務」とは機械学習やソリューション開発ではなく、アドホックなデータ分析機械学習の適用に向けた検証(いわゆるPoC)を指します 領域によっては頻繁に使う手法は異なるかと思うので、自分と近しい領域のデータ分析をしている方の参考になればと思います 今回紹介する分析手法 パレート分析 線形回帰 時系列解析(季節成分分解) 時系列解析(時系列データの相関) ランダムフォレストによる特徴量の重要度 1. パレート分析 対象データ:カテゴリカルデータ 用途:各カテゴリの全体に対する構成比率 ケーススタディ:製品カテゴリ別の売上データ(A~H)に対して、各製品カテゴリの売上傾向を把握したい サンプルデータの生成 A = np.repeat('Cat_A', 15

    【厳選】Python実務データ分析でよく使う手法(分析手法編) - Qiita
  • 1