タグ

logとRに関するwerdandiのブックマーク (3)

  • モデルで扱うデータの前処理をrecipesで行う - 株式会社ホクソエムのブログ

    ドーモ。ホクソエムの @u_ribo です。業ではモデリングとは離れたギョームをしています。寂しくなったので、Rのrecipesパッケージについて紹介します。 tidymodels.github.io モデルに適用するデータの前処理 Rでのモデル式 (model formula) の記述って、利用時に不便を感じることや覚えるのが難しい面が時々ありませんか?例えば、y ~ .」は右辺のドットが、目的変数以外の全ての変数を説明変数として扱うことを示しますが、説明変数に対数変換などの変数変換を行うにはy ~ log(.)という記述はできず、結局、説明変数を「+」でつなげていくことになります。また、交互作用項の指定には「x1 * x2」や「(x1 + x2)^2」、「:」を使う表記が可能ですが、この表記には最初は混乱しませんか?(単に私が不勉強なだけということもあります) 加えて、多くのモデルで

    モデルで扱うデータの前処理をrecipesで行う - 株式会社ホクソエムのブログ
  • [R] 予測モデルを作るには formula を活用せよ - ill-identified diary

    概要 formula オブジェクトは変数変換や交互作用項など, 多彩な表現ができる. xgboost や glmnet では model.matrix() を併用することで formula を利用できる. 統計モデリング/機械学習で予測モデルを構築するとき, 予測性能の向上のため, しばしば変数を入れ替えたり, 変換したりといった推敲が必要となる. R ではこういうときに formula オブジェクトを使うと, いちいちデータフレームに変換後の数値を追加したり書き換えたりする必要がなくなる. glmnet や xgboost など, formula が直接使えないものでも model.matrix() 等を併用すれば可能である*1. formula オブジェクトを解説した記事を探すと, かなり前から存在する. 例えば以下の記事. m884.hateblo.jp なお, 上記はタイトルが「f

    [R] 予測モデルを作るには formula を活用せよ - ill-identified diary
  • dplyrのVectorized Functionsについて - Qiita

    最近いろんなのが出てきて追いきれてなかったのでメモ。 Vectorized Functionsとは dplyrにはmutate()やtransmute()など,新たな変数を作成する関数があります。多くの場合,元ある変数から計算(操作)して新たな変数を導くのですが,この計算(操作)に使える便利な関数たちをVectorized Funcitonsと呼ぶようです。 これはRStudioが公開しているチートシート群の中の,Data Transformation Cheat Sheetの2ページ目に一覧があります1。 今回はここに紹介してある関数を実際にテストしてみます。 関数一覧 チートシートの該当箇所にある関数は以下のとおりです: オフセット(Offsets) dplyr::lag() dplyr::lead() 累積集計(Cumulative Aggregates) dplyr::cumall

    dplyrのVectorized Functionsについて - Qiita
  • 1