タグ

Rに関するlasherplusのブックマーク (27)

  • Shiny で動的に図の数を変更する

    Shiny において動的にUIを生成するには,サーバーサイドで renderUI して作った UI を,UIサイドで outputUI すれば良い. この時,renderUI の中で作ることのできる UI は一つだけではなく list あるいは htmltools::tagList で束ねた複数の UI でもよい. この性質を利用すると,以下のように選択した変数の数に応じてプロットの数を変更できる. 複数の図を作製するには,一つずつ異なる名前を与えて output に格納する必要がある.この操作を observe の中で for ループを回しながら local 環境で行うことがポイントだ.更に local の中では for を回すためのループ変数を別の変数にコピーしてやる必要がある. (https://gist.github.com/wch/5436415/).local や変数のコピーを

    Shiny で動的に図の数を変更する
  • [Stan]生存時間分析のコードと便利なデータセットについて – かものはしの分析ブログ

    都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト はじめに 仕事で生存時間分析を使うことは結構あるのですが、マーケティングの良いデータセットがない印象でブログにしにくいと感じていました。また、Stanでの生存時間分析の事例もあまり把握していません。そこで使えそうなデータセットやStanのコードを探して、そのデータに対して生存時間分析を適用してみたいと思います。 目次 ・生存時間分析とは ・生存時間分析で使えるデータ ・生存時間分析をマーケティングで使う際の用途 ・先行研究 ・生存時間分析で使えるデータセット ・Sta

    [Stan]生存時間分析のコードと便利なデータセットについて – かものはしの分析ブログ
  • ggplot2とpatchworkで周辺分布 | Atusy's blog

    patchworkパッケージを使えばあんな図やこんな図が簡単に,と思い馳せた人も多いのではなかろうか. 参考: TokyoR 73での発表スライド 中でも周辺分布を自由に綺麗に,と思ったのは私だけではないはず. しかし,以下のように散布図とその周辺分布を作成し,並べると,イケてない図が仕上がる. library(ggplot2) library(patchwork) xy <- ggplot(mtcars, aes(wt, mpg)) + geom_point() x <- ggplot(mtcars, aes(wt)) + geom_histogram(bins = 30) y <- ggplot(mtcars, aes(mpg)) + geom_histogram(bins = 30) + coord_flip() (x | plot_spacer()) / (xy | y) 実は,

    ggplot2とpatchworkで周辺分布 | Atusy's blog
  • データ分析のワークフローをdrakeで管理して効率的に作業を進めよう - 株式会社ホクソエムのブログ

    要約 drakeパッケージは、GNU makeのようにあらかじめ定義されたワークフローを自動的に実施する仕組みを、Rユーザに馴染みやすいデータフレーム形式で提供する ワークフローの構築と管理、実行はRの関数として提供され、依存関係を可視化する関数も用意される drakeパッケージを使うことで、データ分析でありがちな「再実行」の負担(再計算、コードの保守)を軽減することが可能となる 各オブジェクトは自動的にキャッシュされ、コードや依存関係に変更のない場合はキャッシュが利用される ワークフローの各処理の状況、依存関係を可視化する関数も用意され、ワークフロー管理が容易になる 要約 はじめに シーシュポスの岩 既存の解決策 drake: Rユーザのためのワークフロー処理パッケージ ワークフロー管理の基礎 ワークフローと依存関係の可視化 ワークフローの変更 参考URL はじめに データ分析の作業は、

    データ分析のワークフローをdrakeで管理して効率的に作業を進めよう - 株式会社ホクソエムのブログ
    lasherplus
    lasherplus 2018/09/11
  • Statistical Methods for HCI Research

    This wiki was initially started as my personal note of statistical methods commonly used in HCI research, but I decided to make it public and put more content in it because I think this may be useful for some of you (particularly if you use R). I will also put some codes for R, so you can quickly apply the methods to your data. This wiki does not emphasize mathematical aspects of statistics much,

  • corrr_test.nb.html

  • 統計コンサルの議事メモ

    ※今回の内容はDr.STONEという漫画のネタバレを含みます 唐突ですが、Dr.STONEという漫画が好きです。 Dr.STONE 1 (ジャンプコミックスDIGITAL) 作者:稲垣理一郎,Boichi集英社Amazon 物理や化学に詳しくないので内容を理解しながら読めているわけではないのですが、石化した世界で少しずつ文明のレベルが上がっていくのを見ていると、科学って地道だけど面白いなーと思ってしまいます。 しかし読んでいて一点気になるところがありました。 白夜たちが宇宙から地球に帰還した後、3組のカップルから石神村が誕生したことです。 もちろんそれぞれのカップルが非常にたくさんの子どもを産めば可能でしょう。しかし現代人が10人も20人も子どもを産めるのかというと少し難しいような気もします。 またカップルが3組しかありませんので、子どもが少なければあっと言う間に「全員が親戚同士」みたいな

    統計コンサルの議事メモ
  • ESJ65-W07 それもRにやらせよう — 整然データの下ごしらえ

    総研大 (SOKENDAI, The Graduate University for Advanced Studies) 下ごしらえを自動化してハッピーに Happy families are all alike; every unhappy family is unhappy in its own way — Leo Tolstoy “Anna Karenina” tidy datasets are all alike, but every messy dataset is messy in its own way — Hadley Wickham 出発点となるデータはさまざま 実験ノート、フィールドノート、 データベース、シミュレーション。。。 解析や作図に使えるデータ形式はほぼ決まってる glm(..., data, ...), ggplot(data, ...), … 整然データ

    ESJ65-W07 それもRにやらせよう — 整然データの下ごしらえ
  • RPubs - Rで推定する回帰モデル入門

    Hide Comments (–) Share Hide Toolbars

  • 📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 4 データの中にゼロがたくさんあるか? - cucumber flesh

    この記事では統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010)で扱われているゼロ過剰問題を取り扱っている。 uribo.hatenablog.com 離散値の整数かならるカウントデータの多くはポアソン分布に従うことが一般的である。しかし、ある生息地における生物の観察数やスポーツにおける試合の得点など、0を多く含むデータが存在する。 そうしたデータについて統計モデルを適用する場合、ポアソン分布や負の二項分布を仮定した一般化線形モデル GLMなどを行うと、ポアソン分布で期待されるよりも過剰(あるいは過少)にデータが観測されることがあり推定がうまくいかないことがある。そのデータのように0の割合が多いデータに対して有効なモデルがゼロ過剰なポアソン分布モデル Zero-inflated Poisson Distribution: ZIPモデルである。 📉 カウン

    📈統計的問題を回避するためのデータ解析のプロトコル (Zuur et al. 2010): 4 データの中にゼロがたくさんあるか? - cucumber flesh
  • パッケージユーザーのための機械学習(12):Xgboost (eXtreme Gradient Boosting) - 六本木で働くデータサイエンティストのブログ

    今やKaggleやKDD cup以下名だたる機械学習コンペで絶大な人気を誇る分類器、Xgboost (eXtreme Gradient Boosting)。特にKaggleのHiggs Boson Machine Learning Challengeの優勝チームが駆使したことで有名になった感があるようで。 その実装ですが、C++ベースで高速化したものにRとPythonのラッパーをつけたものが既にGitHubで公開されています。 Rパッケージである{xgboost}のインストールについての注意事項は前回の記事に書いていますので、インストールの際はご参考にしていただければと。 さて。これだけ大人気の分類器となると国内外問わず色々な解説記事に溢れておりまして、例えば日語ブログでもこれだけの記事が既に出てます。 勾配ブースティングについてざっくりと説明する - About connecting

    パッケージユーザーのための機械学習(12):Xgboost (eXtreme Gradient Boosting) - 六本木で働くデータサイエンティストのブログ
  • 2014-02-22

    概要 時系列データセットを加工し, ggplot2 で作図する場合を例に, 以下のことに言及する. ggplot2で複数の系列の折れ線を1つのグラフに表示する方法 さらにそれを積み上げグラフ(エリアプロット)に変形する方法 デザインを洗練する方法 -- 色系統の変更 -- 凡例の変更 -- 軸の目盛り数値のフォーマット変更 ただし, Rやggplot2 のごく基的な使用方法を知っていることが前提. ggplot2 の基は ggplot2 の自分用メモ集を作ろう あたりで. 下準備 まずはパッケージとデータを読み込む. library(ggplot2) library(reshape2) # melt 関数は ggplot で複数系列のデータをプロットできるように変換するのに必要 データの用意 積み上げグラフをプロットするには, まず複数系列のデータを1つのグラフ内に収めなければならない

    2014-02-22
    lasherplus
    lasherplus 2018/05/11
    geom_ribbon等
  • R MarkdownのHTMLレポートをブラッシュアップ - Qiita

    はじめに R Markdownを使うときれいなレポートの生成の自動化がやりやすいですが、よりステキな見た目にするために色々工夫ができそうです。 いくつか試した内容を備忘録としてまとめておきます。 ※ここで記載しているのはいずれもHTMLドキュメントとして生成するレポートについてのカスタマイズです。 関連記事 インフラ屋さんのためのR言語: 環境構築編 オフラインでのR環境構築 on RHEL z/OSにRを導入してみた インフラ屋さんのためのR言語: プログラミング編 R Markdownによるレポート生成 [R MarkdownHTMLレポートをブラッシュアップ] (http://qiita.com/tomotagwork/items/3061a74e1d25cf46e891) <= 当記事 R - ShinyによるWebアプリケーション作成: 基礎編 R - ShinyによるWebア

    R MarkdownのHTMLレポートをブラッシュアップ - Qiita
  • ggplot2-exts.org

    This domain was recently registered at Namecheap.com. Please check back later! ggplot2-exts.org 2022 著作権. 不許複製 プライバシーポリシー

  • GitHub - qinwf/awesome-R: A curated list of awesome R packages, frameworks and software.

    Awesome R A curated list of awesome R packages and tools. Inspired by awesome-machine-learning. for Top 50 CRAN downloaded packages or repos with 400+ Awesome R 2023 2020 2019 2018 Integrated Development Environments Syntax Data Manipulation Graphic Displays Html Widgets Reproducible Research Web Technologies and Services Parallel Computing High Performance Language API Database Management Machine

    GitHub - qinwf/awesome-R: A curated list of awesome R packages, frameworks and software.
  • ggplot2をつかってみる

    第65回日生態学会自由集会「データ解析で出会う統計的問題: R の新しい作図・作表」での発表 ggplot2の基的な使用法と作図例 http://www.esj.ne.jp/meeting/abst/65/W07.html http://hosho.ees.hokudai.ac.jp/~kubo/ce/EcoSj2018.html

    ggplot2をつかってみる
  • [R+Google アナリティクス]リセンシーどこで切るチャート - 廿TT

    アクセス解析の分野ではユーザーの離脱率や維持率を把握したいというニーズがあります。しかし、離脱するユーザーは単にサイトへの訪問を止めるだけで、わざわざ離脱を申告することはめったにありません。このような場合、例えば 「3ヶ月訪問がなければ離脱したと判断する」などのルールを決めることがあります。この「離脱した」と判断する区切りは、3ヶ月がいいのか、2ヶ月がいいのか、4ヶ月がいいのか、難しいところです。 その判断をサポートするために以下のようなグラフを書いてみてはいかがでしょうか。 データセットを学習期間と評価期間に分ける 閾値を定める 学習期間で閾値を超えた日数訪問しなかったユーザーを「離脱」、それ以外を「維持」と判断 維持と判断されたユーザーが、評価期間に再訪問があったユーザーの内、何パーセントかを数える(active) 同様、維持と判断されたユーザーが、評価期間に再訪問がなかったユーザーの

    [R+Google アナリティクス]リセンシーどこで切るチャート - 廿TT
  • 盆栽日記

    行列を1行ずつリストに変換したいという非常にニッチなニーズがあり、少し苦労したのでコードをメモ。 lapply(seq_len(nrow(mat)), function(i) mat[i,]) 生存時間分析でRMSTを出したい。 こちらではsurvRM2パッケージを使うと良いとある。 nshi.jp survRM2パッケージのvignetteはこちら。 https://cran.r-project.org/web/packages/survRM2/vignettes/survRM2-vignette3-2.html こんな感じでRMSTを算出してくれる。 > smp <- pbc %>% filter(status %in% c(0,2), !is.na(trt)) %>% + mutate(status = if_else(status == 2, 1, 0), + trt = trt-

    盆栽日記
    lasherplus
    lasherplus 2018/01/19
  • ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh

    RStudioのチーフサイエンティスト、Hadley Wickham(ハドリー)が2月に行った講演のビデオがYouTubeに上がっていたので観た。 "Making Data Analysis Easier"というタイトルでの発表(スライドでは"Managing many models"になっているけど)で、ハドリー自身が考えている、データサイエンスに必要な可視化やモデリングを効率的に行うための手法について、彼の開発してきたパッケージを中心に説明している。 www.youtube.com 分かりやすく、具体例を交えた内容なので、是非YouTubeの動画を観てもらうのが良いと思うが、自分の頭を整理するためにもここでまとめておく。なお、発表スライドはクリエイティブ・コモンズライセンス3.0のもと、表示・非営利のラインセンスで再利用可能となっている。 Hadley Wickham (Chief S

    ⭐️Rを使ったモデル構築の最善策を求めて: {dplyr} + {tidyr} + {broom} + {purrr}を使ったアプローチ - cucumber flesh
  • メモ:時系列とか連番のデータを補完するときはtidyrのcomplete()とfull_seq()が便利そう - Technically, technophobic.

    追記:これは「補間」とは言わないかも…。期待外れだったらすみません。 前にこんな記事を書きました。 で、これはたまたま毎分データがあったからよかったんですが、もっととびとびのデータの時どうするんだろう?と思ってたらtidyrパッケージのcomplete()とfull_seq()が便利そうだったのでメモ。 おさらい complete() complete()は、分かりづらいんですが、暗黙の欠損値を明示的な欠損値(NAとか0とか)して出現させる関数です。ヘルプにもそう書かれています。 Turns implicit missing values into explicit missing values. これはどういうことかというと、例えばこういうデータがあったとき、何を思うでしょうか。 library(tidyverse) d <- tribble( ~name, ~lang, ~chotto

    メモ:時系列とか連番のデータを補完するときはtidyrのcomplete()とfull_seq()が便利そう - Technically, technophobic.