タグ

Rに関するRion778のブックマーク (733)

  • 完璧なdata.frameなどといったものは存在しない。完璧な絶望が存在しないようにね。 - Technically, technophobic.

    tidyポエム Advent Calendar 2017 - Adventar 5日目の記事です。 なんかdata.frameとtibbleについての議論が盛り上がってるようなので、data.frameについて書きましょう。 ええ、決して「tidygraphに触ってみる」なんていうタイトルでアドベントカレンダーに登録してたけどついさっきまで忘れていた、みたいなことではないですよ。 時流を捉えたテーマを選んだまでです。ええ。 pic.twitter.com/4ACJHgjX6s— h(o x o_)m< Fool on the Hill (@hoxo_m) 2017年12月4日 I()ゆえに人は苦しまねばならぬ!! そもそも、data.frame()でリストを渡したときというのはどういう挙動が意図されているのでしょう。?data.frameを見てみましょう。 data.frame conve

    完璧なdata.frameなどといったものは存在しない。完璧な絶望が存在しないようにね。 - Technically, technophobic.
    Rion778
    Rion778 2017/12/05
    勝手に変換してるよな...とは思ってたけどI()で無効にできるの知らなかった
  • Alluvial Plots in ggplot2

    Alluvial Plots in ggplot2 Jason Cory Brunson 2023-02-13 The {ggalluvial} package is a {ggplot2} extension for producing alluvial plots in a {tidyverse} framework. The design and functionality were originally inspired by the {alluvial} package and have benefitted from the feedback of many users. This vignette defines the essential components of alluvial plots as used in the naming schemes and docum

    Rion778
    Rion778 2017/11/27
    ブックマークしようとしたらすでにしてた…
  • do()とかrowwise()は今から覚える必要はない(たぶん) - Technically, technophobic.

    追記(2020/07/04): この記事の予想は外れ、 rowwise() は dplyr 1.0.0 で華麗な復活を遂げました。 追記(2017/11/17): RStudio Communityで質問してみたところ、「もう機能追加されないしドキュメントでも言及されないけど、まあ数年は残るんじゃね?」というのがHadleyの回答でした。 てことで、いまdo()を使いこなしてる人はそんなに急いで他に移動する必要はなさそうです。必要以上に不安を煽ってしまったようですみません。。 まず知ってほしいのは、do()とrowwise()は、ドキュメントに明記はされていないものの、将来的に捨てられる線が濃厚だということです。 I don't think we should invest further development time into do. (https://github.com/tidy

    do()とかrowwise()は今から覚える必要はない(たぶん) - Technically, technophobic.
    Rion778
    Rion778 2017/11/17
  • knitr Reference Card

    Rion778
    Rion778 2017/11/10
  • Rではじめるデータサイエンス

    ggplot2、dplyrといったRを代表するパッケージやRStudioの開発で知られる「Rの神様」ハドリー・ウィッカムと、『RStudioではじめるRプログラミング入門』の著者ギャレット・グロールマンドによる、Rプログラミングを通してデータサイエンスの理解と知識を深めるための一冊。Rの機能と威力を知り尽くし、また、統計とデータサイエンス教育のプロフェッショナルでもある著者たちによるわかりやすくクリアな説明は、既存のデータサイエンス入門書とは一線を画します。データサイエンスに必要な要素とプロセス(インポート、整理、変換、可視化、モデル、コミュニケーション、プログラミング)を明確に定義し、それぞれ順を追い、各節の最後には練習問題を掲載して、ていねいに説明します。データサイエンティストを目指すなら必読の一冊です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や更新された情報を掲載

    Rではじめるデータサイエンス
    Rion778
    Rion778 2017/11/07
  • AirbnbのデータサイエンティストはなぜRが好きなのか? - Qiita

    今シリコンバレーで、もしくは世界中のスタートアップ業界で一番ホットな会社といえばAirbnbと言っても過言でないのでしょうか。日では民泊のプラットフォームとして知られていますが、今や3兆円近い企業価値がついている超ユニコーン企業です。私も日に行く時はホテルでなく、いつもAirbnbで普通のアパートを一週間ほど渋谷のあたりに借りますが、使いやすく、コストパフォーマンスもよく、出張をするときには欠かせないサービスです。 Airbnbnはシリコンバレーのスタートアップの中でも特にデータの使い方がうまい会社として有名で、いろいろとデータに関するツールをオープンソースとして公開もしています。そんなAirbnbのデータサイエンティストたちの間ではRというプログラミング言語が一番人気があるというのは以前から広く知られていることですが、今回、彼らがどう社内でRを使っているのか、どのようにプロダクトに関

    AirbnbのデータサイエンティストはなぜRが好きなのか? - Qiita
    Rion778
    Rion778 2017/10/13
  • Can I recreate this polar coordinate spider chart in plotly?

    Rion778
    Rion778 2017/10/12
    良い子は真似してはいけないレーダーチャートの描き方
  • Dot

  • Prophet で外れ値を検出して可視化する - Qiita

    Prophet は Facebook が作った時系列予測パッケージです。詳しくは次のスライドを参照してください。 Prophet入門【R編】Facebookの時系列予測システム Prophet入門【理論編】Facebookの時系列予測システム 理論編のスライドにも書きましたが、Prophet が採用している時系列モデルは誤差が正規分布に従うと仮定しています。 したがって、一度モデルのフィッティングを行えば、そこから大きく外れた値を正規分布の外れ値検出を使って検出することができます。 これを行う関数を作成し、prophetExt パッケージに追加しましたので使い方を説明します。 まずはデータを準備し、モデルのフィッティングを行います。 library(prophet) # データの読み込み df <- read.csv("https://raw.githubusercontent.com/f

    Prophet で外れ値を検出して可視化する - Qiita
    Rion778
    Rion778 2017/09/12
  • Rangeselector buttons with plot_ly vs ggplotly? · Issue #646 · plotly/plotly.R

    Rion778
    Rion778 2017/08/30
    rangeselectorボタンを有効にするにはggplotly()使用時にdynamicTicks=Tを指定する必要がある。ちなみにdynamicTicksを指定するためにはggplot2開発版のインストールが必要だった。
  • dygraphsサイコォォォォオオオオオオオオオオオオオ!!! - My Life as a Mock Quant

    仕事が早いことで有名なRStudioがまた新しいライブラリを出したようだ htmlwidgets: JavaScript data visualization for R | RStudio Blog ここで紹介されているhtmlwidgets for Rパッケージは、javascriptの可視化系ライブラリのRへのラッパーとなっているとのことだ。今のところ、 Leaflet for R - Introduction dygraphs for R networkD3 DT: An R interface to the DataTables library GitHub - bwlewis/rthreejs: Three.js widgets for R and shiny の5つが用意されている*1が、俺の興味があるところは時系列データの話なので、dygraphs for Rをいじりたい。

    dygraphsサイコォォォォオオオオオオオオオオオオオ!!! - My Life as a Mock Quant
  • RPubs - dygraphでチャラいグラフ

  • Rで解析:JavaScriptのdygraphsがRから利用できます。「dygraphs」パッケージの紹介

    「dygraphs」パッケージは時系列のデータをプロットするのに適したdygraphsライブラリを利用します。これまで、RからJavaScriptライブラリの利用として2つのパッケージを紹介しました。パッケージと合わせて使用すれば、多くのインタラクティブな表現が可能です。 「dygraphs」パッケージの利用には、結果を簡単にHTMLファイルで出力するRStudioを導入することをオススメします。 パッケージのバージョンは0.4.5。windows 11のR version 4.2.2で確認しています。 結果をHTMLファイルで保存する方法dygraphsパッケージの結果をHTMLで保存するには、RStudio、「rmarkdown」パッケージ、「shiny」パッケージなどを利用する方法があります。その中から簡単なRStudioを利用を紹介します。 dygraphsパッケージのプロットコ

    Rで解析:JavaScriptのdygraphsがRから利用できます。「dygraphs」パッケージの紹介
    Rion778
    Rion778 2017/08/28
  • Posit

    Rion778
    Rion778 2017/08/17
    "file inputs now support dragging and dropping"
  • メモ:%<-%、%>>% - Technically, technophobic.

    最近ちょっと気になる演算子。使い方をちょっと調べたのでメモ。 %<-% これはzeallotというパッケージの演算子です。 値のparallel assignmentができます。parallel assignmentというのは、Pythonとかだと、 a, b, c = 1, 2, 3 みたいなことでできるじゃないですか。あれです。 library(zeallot) c(a, b, c) %<-% 1:3 c(a, b, c) #> [1] 1 2 3 もちろん値の入れ替えなんかもできます。 x <- 0 y <- 1 c(x, y) %<-% c(y, x) c(x, y) #> [1] 1 0 %>>% これはlumberjackというパッケージの演算子です。 %>>%は%>%と同じような演算子で、lumberjackパッケージの他の関数と組み合わせて使うとデータ変形のログを取ることが

    メモ:%<-%、%>>% - Technically, technophobic.
    Rion778
    Rion778 2017/08/10
  • データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh

    探索的なデータ分析 (Explore Data Analysis: EDA)を行う際は、データの要約や欠損の有無の確認、可視化が欠かせない作業となります。 特に可視化は、データのもつ性質や関係を表現するのに大変役立ちます。一方で、可視化に用いた図はコードとは別に保存する必要があったり、作図のためのコードを書いたりと、面倒な側面もあります。 … きちんとした作図は面倒だけどデータの性質や欠損について把握したい。そんな時にはコンソール上での可視化を試しましょう。そのためのパッケージをHadley Wickhamが開発しています。 https://github.com/hadley/precis Rにはそもそも、オブジェクトの情報を要約してくれるsummary()関数があるのですが、この precisパッケージは、それを置き換えるような設計を目指しているそうです。早速使ってみましょう。 # gi

    データフレームの特徴をもっと早く掴みたい ~ ハドリーへの挑戦 - cucumber flesh
    Rion778
    Rion778 2017/08/09
  • Stanで生存時間解析(Weibull 回帰) - Easy to type

    生存時間解析とは? 生存時間解析は、イベントの時間を解析するための手法です。例えば、 ソーシャルゲームwebサービスなどに登録した人の利用継続時間(マーケティング) 投薬群と対照群(プラセボ)で、どれだけ長生きするか(医用統計) 新規材料が既存の材料とくらべて、どれぐらい耐久性があるか(信用工学) など、様々な応用例が考えられます。生存時間解析はノンパラメトリックな手法で行なうことが多いです。具体的には、 カプランマイヤー推定量で生存時間を推定 生存時間の違いをログランク検定で判断 共変量の違いをCoxの比例ハザードモデルやAelanの加法モデルで解析 といった辺りが挙げられるでしょうか。その原因としては、生存時間のデータへ打ち切りという特徴があることが挙げられます。結果として分布にあてはめるだけの解析では、打ち切りを説明することが難しく上手くフィッティング出来ません。並べて、最尤法を使

    Stanで生存時間解析(Weibull 回帰) - Easy to type
    Rion778
    Rion778 2017/08/06
  • CausalImpact

    An R package for causal inference using Bayesian structural time-series models What does the package do? This R package implements an approach to estimating the causal effect of a designed intervention on a time series. For example, how many additional daily clicks were generated by an advertising campaign? Answering a question like this can be difficult when a randomized experiment is not availab

    Rion778
    Rion778 2017/08/03
  • LDA(Latent Dirichlet Allocation)について - Qiita

    はじめに 「歌」「演奏」「ダンス」などの単語を見た時、書いていないくても「音楽」を想起できる。 →複数の単語の共起性から創発される情報 潜在的意味のカテゴリをトピックと呼ぶ。 試しに動かしてみた ジャンルの異なる任意のwikiの文章(カリフラワー、NASA、マスカラ)をインプットし、それぞれの文章のテーマを抽出、LDAで分類できているかを確認する 実行結果 なんとなくできてそう。それぞれの単語があるべきカテゴリに分けられている。 カリフラワー、NASA、マスカラでは記事内の単語の出現パターンが大分異なるため、モデルとしてもイージーだったかもしれません。 お試し実行コード 基コード... # LDA(Latent Dirichlet Allocation)のRパッケージを試してみるスクリプト # # 複数のテキストからトピックを抽出する # # 参考: # トピックモデルによる統計的潜在意

    LDA(Latent Dirichlet Allocation)について - Qiita
    Rion778
    Rion778 2017/08/01
    "char型にするとRMecabDFでエラーが出る"
  • みんなのRcpp

    はじめに Rcpp は R の関数を C++ で実装することを可能にするパッケージです。 R と類似したスタイルで記述できるように実装されているため、C++ に深い知識がなくても利用しやすいようになっています。しかも、そのために実行速度は犠牲にされていないので、誰でもハイパフォーマンスな結果を得ることができます。 このドキュメントは、C++にもそれほど詳しくない方々に対しても Rcpp を利用するのに必要な情報を提供することを目的としています。そのため、場合によっては C++的に正確な記述することよりも、概念的なコード例を使って説明している場合があります。 C++の書き方そのものについての説明はほどんどありませんので、C++についてはその他の資料を参考にしてください。書を読んで C++ を学んでみようという方には「基礎からしっかり学ぶC++の教科書 矢吹 太朗 著(日経BP社)」をオスス

    Rion778
    Rion778 2017/07/28