タグ

rに関するyasyasのブックマーク (14)

  • eval + parse + text vs. eval + substitute + do.call | R | Kengo Nagashima - Keio University

    eval + parse + text vs. eval + substitute + do.call R で実行したいコードが character 型のオブジェクトとして格納されている場合、eval + parse + text などを使って実行する事があります。 例えば、添え字をインクリメントして x1, x2, ..., という連番オブジェクトを生成する場合などに利用されていると思います。 各所 R コミュニティでは eval + parse + text なんて使うのはダメだ!という話をよく見かけます。 使ってはいけない理由についてはクリアに理解できなかったのですが、計算速度には違いがあるという事が指摘されているようです。 そこで、非推奨の eval + parse + text と推奨されている eval + substitute + do.call のシンプルな例を示した上で、

  • Rで、変数の値を変数名や列名にする

    タイトルの意味分かりました? 例えば、x00, x01, x02, ..., x99 という名前の100個の変数を作りたいとか、それらに値を設定したいというときに使える方法です。(そんなシチュエーションがあるかどうかは別として) 上記の変数に、0, 1, 2, ..., 99 の値を設定したいとき、 x00 <- 0 x01 <- 1 x02 <- 2 ... x99 <- 99 を全部書けばいいわけですが、それは大変なので、下記のようにできます。 for(i in 0:99){ # 命令の文字列を作る s <- paste("x", sprintf("%02d",i), " <- ", i, sep="") # 文字列を命令として実行する eval(parse(text=s)) } ls() # x00~x99の100個の変数ができていることを確認 このevalとparseのコンビを、列

    yasyas
    yasyas 2018/03/04
  • Rによる機械学習:caretパッケージの使い方 | Logics of Blue

    ニューロンの個数を2パタン。 データへの依存度を3パタン用意すると、2×3=6パタンも試さなければなりません。 大変に面倒ですが、このハイパーパラメタを雑に設定すると予測精度が落ちてしまうこともよくあります。 めんどくさいですが、なるべくやったほうがいいです。 4.モデルを使って予測する これは簡単。単に予測をするだけです。 パッケージを使っていれば、たいていは予測用の関数が用意されています。 5.予測の評価をする 最後は評価です。 評価をすることによって、 ・どの手法の ・どのパッケージの ・どのパラメタを 採用すべきかを判断します。 で、一番予測精度がいいやつを使って予測することになります。 たくさんの手法、たくさんのパッケージ、たくさんのパラメタの組み合わせをしらみつぶしに評価する。 普通にこれをやろうと思うと、気が遠くなってしまいますね。 そこで登場するのがパッケージ「caret」

    yasyas
    yasyas 2018/02/02
    caret
  • Rにおける代表的な一般化線形モデル(GLM)の実装ライブラリまとめ &#8211; MARKETECHLABO

    一般化線形モデル(GLM)は統計解析のフレームワークとしてとにかく便利。Rでもビルトインの関数から拡張までさまざまなライブラリから提供されている機能だが、さまざまなライブラリがありすぎてどれを使えばいいのかわかりにくいのと、さらに一般化線形モデル(GLM)自体にもいろいろな亜種があるため、どの手法をどのライブラリの関数で実装すればいいかわからなくなる。 そこでRに実装されている代表的なGLM系の関数と特徴についてまとめてみた。 一般化線形モデルのおさらい 一般化線形モデルとは $$ y = g^{-1}(\alpha + \beta_1 x_1 + \beta_2 x_2 + … + \beta_i x_i) + \epsilon $$ で指定されるモデル。 一般化線形モデルを決定するのは 誤差構造:目的変数の分布 線形予測子 $\alpha + \beta_1 x_1 + \beta_2

  • http://cse.fra.affrc.go.jp/okamura/bayes/RandGLM.pdf

    yasyas
    yasyas 2018/02/01
    GLM
  • 2 6.ゼロ切断・過剰モデル

    2013年8月10~11日にかけて北大函館キャンパス内で行われた統計勉強会の投影資料です。 2日目 2-6.ゼロ切断・過剰モデル ゼロがないデータや、0が多すぎるデータを分析する方法を解説します。 サイト作ってます http://logics-of-blue.com/Read less

    2 6.ゼロ切断・過剰モデル
    yasyas
    yasyas 2018/01/28
    GLM(zero inflated model / hurdle model) 目的変数に0が多い時の方法。
  • R言語 標準データセットの私的まとめ - Qiita

    Rには、分析手法や可視化手法を試すことのできる多くのデータセットが同梱されています。 その数は2016年12月現在で104個にも達していますが、その大半はあまり紹介されることがなく、知る機会も多くはありません。「ヘルプが英語で書かれている」というのもその要因の1つでしょうが、「数が多すぎて、何に使えるのか把握しきれない」という理由も大きいのではないでしょうか。 実は、 間瀬先生のR 基統計関数マニュアル の巻末 パッケージ 'datasets' の情報 - RjpWiki R 3.3.1の datasets パッケージ中のオブジェクトの全ヘルプドキュメント一覧 (Google Docs) などに情報がまとまっているのですが、アルファベット順に表記されているため、データの「構造」でソートしたものがあってもいいんじゃないかな、とふと思いました。 これらのデータについておおまかに分類して、概要

    R言語 標準データセットの私的まとめ - Qiita
  • LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家

    今回はLASSOとリッジ回帰についてです。 パッケージは「glmnet」、「lars」、「lasso2」で実行できます。 glmnetとlarsの作者はFriedman、Hastie、Efron、Tibshiraniと有名な先生ですが、lasso2の作者は知らないです。。 内容もほぼ一緒なので、LASSOをするときはglmnet一択で良いと思います。 まずは使用例から。。。 データはLARSパッケージにあるdiabetesを使います。 このデータである結果変数y(中性脂肪?)をx(性別や血圧など)によって予測するモデルを作ります。 まずは単純な線形回帰をします。 library(lars) library(glmnet) data(diabetes) Linear <- lm(diabetes$y ~ diabetes$x) Linear$coefficients これが推定結果です。 (

    LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家
  • leafletではじめるRによる地図プロット

    1 はじめに この記事は、R Advent Calendar 2015の12月22日担当分の記事です。 また、この内容は2015年12月5日に私がJapan.R 2015にて発表した内容をベースに、説明をくわえ再編集したものです。その時のスライドは以下に設置しています: http://rpubs.com/kazutan/leaflet_slide 1.1 leafletとは leafletとは、JavaScriptのオープンソースライブラリである“leaflet.js”をRでも利用できるようにしたパッケージです。これはhtmlwidgetsパッケージにより実現されています。JavaScriptを使わなくてもRだけで利用可能ということで、非常に注目を集めているパッケージです。 1.2 特徴 最大の特徴は、htmlで動的な地図が作れることです。主に以下のような特徴が挙げられます。 ぐりぐり動か

  • ggmapで位置情報を可視化 - R言語による電子カルテデータの二次利用

    電子カルテ用のPCはインターネットに接続されていないものが多いです。セキュリティーの問題もありやむを得ないのですが…。ただ折角の患者位置情報を可視化できないのはもったいないことです。Rでは、leaflet packageでインタラクティブな地図にプロットもできますがインターネット接続が必要となりますので、今回は静的な地図へのプロットをggmap packageで練習します。 練習用のデータ(コンビニ位置情報)は、下記から入手しました。 http://www.sinfonica.or.jp/kanko/estrela/refer/s29/index.html あらかじめtokyo3.csvというファイル名で保存しておきます。 df<- read.csv("tokyo3.csv",header = F) colnames(df) <- c("name","address","lon","lat

    ggmapで位置情報を可視化 - R言語による電子カルテデータの二次利用
  • Exploring Survival on the Titanic

    Explore and run machine learning code with Kaggle Notebooks | Using data from Titanic - Machine Learning from Disaster

    yasyas
    yasyas 2017/08/06
    Titanic challengeのtutrial
  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 dplyrを使いこなす!Window関数編 dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデータサイ

    dplyrを使いこなす!基礎編 - Qiita
  • RStudioのショートカットキー変更 - Qiita

    2015/12/25 追記 我輩の希望的観測は見事にはずれた。今日新たにリリースされたRstudioのPreviewRelease(v0.99.836)では、ショーカットキーの作成ができなくなった。なおショートカットキーのキーバインド変更は引き続きできるようなので安心した。 Rstudioの今後としては新たにAddinの形で機能を追加していく方針になりつつあるようだ。 Rstudioのショートカットの変更 RStudioでショートカットキーの変更ができるようになったのでメモる。 なおv0.99.644からなので投稿時現在の環境ではdevelop版を使うことになる。 参考というかほぼそのまま公式サイトのパクリ。 既存のショートカットの変更 現在行までのコードを実行してくれる便利なショートカット"Ctrl + Alt + T"はTerminalを開くショートカットと もろかぶりなので変更する。

    RStudioのショートカットキー変更 - Qiita
    yasyas
    yasyas 2017/08/04
  • ggplot2 の自分用メモ集を作ろう - Triad sou.

    プロットの作製 基プロットを作る Geoms Aesthetics 違う種類のグラフを重ねる 参照線の追加 グループ分け 層別プロット スケールと軸 Scales 軸ラベルやタイトルの変更 軸の表示範囲を変更する 軸の左右の余白を削除する 軸表示の修飾 日時の軸スケール 軸区切り値の変更 軸スケールの変更 (変数変換) プロットのソート (離散型変数の水準をソートしてプロット) 座標系の反転:横向き箱ひげ図 極座標への変換:円グラフ 座標系のアスペクト比の指定 色セットの変更 ggplot2 のデフォルト色セットの定義 任意の色セットの利用 凡例 凡例位置の変更 凡例ラベルの変更 凡例の一部を削除する テーマ (グラフ背景・グリッドの色, マージン, フォント) Themes 定義済み theme の適用と編集 theme 要素と theme() の併用時の注意点 フォント変更 保存 g

    ggplot2 の自分用メモ集を作ろう - Triad sou.
  • 1