タグ

欠損値に関するmahler-5のブックマーク (3)

  • Rでデータクリーニング、変数の生成 – marketechlabo

    このあたりから処理がアドホック寄りになるので、data.tableを使う場合でもパイプ(dplyr)を使って一度に実行するのではなく添字記法を使って1ステップずつ進めていくといい(1行ずつ実行する場合は添字記法を使った方がコード量が少なくて済む)。 行の削除(抽出) 行の抽出 行の並べ替え(ソート) 行の並べ替え 変数の加工(データフレーム/data.frame共通) 標準化(scale) 指定した変数を標準化(平均=0、分散=1のスケールに圧縮/拡大)する。 scale()関数を使う。 # データフレーム x.dt$purchase_amount <- scale(x.dt$purchase_amount) # data.table x.dt[,purchase_amount := scale(purchase_amount)] 複数列をまとめてやるにはmutate_at()を使って x

  • pandasでよく使う文法まとめ - Qiita

    Pythonデータ分析用ライブラリ「pandas」でよく使う文法をまとめました. Change log 2019-02-18 表示拡大の方法を更新 2018-05-06 コメント反映(pd.set_option('display.width', 100)) 2018-02-14 リンクの修正 2017-11-01 df.fillna(method='ffill')の説明を修正 2017-06-09 リンク切れ等の修正 2016-10-10 例の編集 2016-06-21 df.rolling, pd.date_range, pd.datetime, df.pivotの追加,その他の例の追加

    pandasでよく使う文法まとめ - Qiita
  • 数値欠損値の補完 - CatTail Wiki*

    データに存在する欠損値の扱いは、分析において厄介なものです。 このような処理はDATAステップを利用して実現できますが、変数が不定であれば結構手間がかかります。 以下では、SAS/STATのSTDIZEプロシジャを使用して、数値欠損値を適当な数値で補完する方法をいくつか紹介します。ポイントは、REPONLYオプションの利用です。STDIZEプロシジャは何らかの標準化・規準化を行いますが、このオプションを指定すると欠損値の置き換えのみが行われます。 まずはじめは、変数に含まれる欠損値を0で置き換える方法です。 (特殊欠損値も含めて)3か所存在する欠損値が全て0で置き換えられます。 data test; /*サンプルデータ*/ input a b; datalines; 1 1 4 2 1 5 3 . . 6 .e 4 ; run; proc stdize data=test out=out1

    数値欠損値の補完 - CatTail Wiki*
  • 1