挨拶 レンウッドといいます。Hadley Wickham氏のR for Data Scienceを学習するにあたり、記録を残していこうと思います。 ここ誤解してるよ、とか、こうした方がいいよ、とかアドバイスあったらありがたいです。 R for Data Science: http://r4ds.had.co.nz/ 基本構文 ggplot(data = <DATA>) + <GEOM_FUNCTION>( mapping = aes(<MAPPINGS>), stat = <STAT>, position = <POSITION> ) + <COORDINATE_FUNCTION> + <FACET_FUNCTION> 各要素の(自分なりの)説明 <DATA> グラフの元となるデータ <GEOM_FUNCTION> グラフの種類を決める。以下代表的なもの geom_point: 散布図 g
今回はtidyではないデータをtidyなデータに変形することで、より簡単にggplotでデータを可視化する方法について書きたいと思います。 tidyなデータとは何ぞやという方、参考にあげているページをご覧ください(なげやりですみません。。)。 まず、tidyではないデータとして、以下のデータフレームを用意します。 tibbleはRのデータフレームオブジェクトを拡張させたオブジェクトで多くのメリットを持ちます。 library(tidyverse) #今回使用するtibble,tidyr,dplyr,stringr,ggplotパッケージはtidyverseパッケージに内包されています。 tb1 <- tibble(Place=c("Hiroshima","Osaka","Tokyo"), "2018-08-01 temperature" = c(30,33,28), "2018-10-01
Rのグラフィクスパッケージであるggplotの基本的な使い方を備忘録的にまとめていこうと思います。 library(ggplot2) df<-diamonds #今回はggplotパッケージに含まれるdiamondsデータセットを使います。df(dataframe)に代入します。 head(df) #dfの内容確認 # A tibble: 6 x 10 carat cut color clarity depth table price x y z <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl> 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31 3 0.23 Good E VS1 56
ggplotで作成した複数のグラフを1つの画像にまとめて出力します。 色々と複数の図をまとめるパッケージがあるみたいですが、今回はgridExtraパッケージを使います。興味のある方は参考ページを見てください。 まず、各グラフを作成します。作成の仕方はRのデータ可視化パッケージggplotの基本を参考にして下さい。 #パッケージの読み込み library(ggplot2) library(gridExtra) #各グラフの作成 df <- diamonds #データはdiamondsを使います。 p1 <- ggplot(df,aes(x=carat,y=price))+ geom_point() p2 <- ggplot(df,aes(x=cut,y=price))+ geom_boxplot() p3 <- ggplot(df,aes(x=price))+ geom_histogram
Overview ggplot2 is a system for declaratively creating graphics, based on The Grammar of Graphics. You provide the data, tell ggplot2 how to map variables to aesthetics, what graphical primitives to use, and it takes care of the details. # The easiest way to get ggplot2 is to install the whole tidyverse: install.packages("tidyverse") # Alternatively, install just ggplot2: install.packages("ggplot
やりたいこと 箱ひげ図は分布形状を知るのに便利だけど、具体的な数値も知りたいところです。 当然summary()でもいいんですが、どうせなら一遍に知りたいし伝えたいので、 箱ひげ図に要約統計量を書きたいです。 とりあえずそれだけならstat_summary()でOK。 やったこと ただこれだけだとnが分からないので、以下を丸々参考に記載。 参考:https://stackoverflow.com/questions/40102613/ggplot2-adding-sample-size-information-to-x-axis-tick-labels StatN <- ggproto("StatN", Stat, required_aes = c("x", "y"), compute_group = function(data, scales) { y <- data$y y <- y[
library(ggplot2) library(purrr) library(stringr) gghl <- function(.geom, LL = list(colour = NA)) { #.geom Geom objects (e.g., ggplot2::GeomPoint) # LL default aethentics for lowlights Stats <- substitute(.geom) %>% # Generate Stat for lowlight and highlight deparse %>% stringr::str_replace('(.*::)?Geom', 'Stat') %>% paste0(c('LL', 'HL')) %>% # _class LL = lowlight HL = highlight list(c( # compute_
昨日の記事の続編ですが、昨日の記事のことは忘れていいです。 gghighlightについて グラフ作りにおいて、必要な情報だけを色付けてくれるパッケージ(yutannihilation氏作) http://notchained.hatenablog.com/entry/2017/09/29/212444 library(ggplot2) library(gghighlight) gghighlight_point(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species), Species == 'setosa', use_direct_label = FALSE) といった課題がある。 前者についてはggplot_add()の登場によって解決できる見通しっぽい。 https://yutani.rbind.io/post/20
ggplot2はレイヤの順番変更や、削除がやや手間 ggplot2は、便利な作図ツールですが、データや書式をレイヤに分けている関係上、レイヤを足す順番が大事になります。 例えば下記の図は、散布図と回帰曲線を足す順番を前後させたもの。 点を目立たせたいか、回帰曲線を目立たせたいか、考えてレイヤを足さなければなりません。 library(ggplot2) library(GGally) gp <- ggplot(iris, aes(x = Sepal.Length, y = Sepal.Width, color = Species)) layers <- list( geom_point(), geom_smooth(alpha = 0.6) ) ggmatrix( list( gp + layers, gp + rev(layers) ), nrow = 1, ncol = 2, xAxis
動機 誰かと仲良くなると急にメッセージが増える.そのあと疎遠になるとさっぱりやりとりをしなくなる傾向がある.いっぽう,長いあいだ関わりのある友人の場合,量は少ないが長期間にわたってメッセージをやりとりをする.こういうパターンを可視化したい.ひらたく言うと恋/友情/用事がどれほど熱くなって,どれくらいのスピードで冷めたかが見られるようになる. データの収集 まずはfacebookからデータを引っ張ってこないと始まらない.Facebookにログインし,ページの右上からSettings>Download a copy of your Facebook data.と辿っていくと全データがダウンロードできる.人によっては数百MB,数GBにおよぶと思う.ZIPを解凍するとそこにhtml/messages.htmというファイルがある.ここに全メッセージのデータが入っている・・・はずだったのだが,最近仕様
Alluvial Plots in ggplot2 Jason Cory Brunson 2023-02-13 The {ggalluvial} package is a {ggplot2} extension for producing alluvial plots in a {tidyverse} framework. The design and functionality were originally inspired by the {alluvial} package and have benefitted from the feedback of many users. This vignette defines the essential components of alluvial plots as used in the naming schemes and docum
ある晩、旧知の研究者からggplot2を使って下記のようなグラフを書きたい、と問い合わせがありました。 ggplot2で回帰曲線を描きたい グラフのある点で回帰式が変わるので (次数が上がるとか言ってた)、区間ごとに分けて書きたい geom_smoothではなくて、推定されたパラメータを使ってダイレクトに書きたい predict関数を使うとグラフがギザギザになるので、別の方法で ちょうど私も中断時系列/回帰分断モデルのggplot2での作図に苦労していたので、二つ返事で引き受けました。 少し時間がかかってしまいましたが、宿題を提出致します。 結論 layer関数の第一引数にpredictで推定したデータのsubsetを指定することで、「ある時点」前後のグラフを重ねて出力することができる。 predict関数を用いても、ギザギザしないグラフを書くことはできる。ただし、パラメータの設定次第。
勉強会でやったように、統計量や変数の型などが分かります。data.frameではView()でエクセルのようなシートがみられます。 dplyr filter()
「データ視覚化のデザイン #1」をmatplotlibで実装するをRでやってみるというヤツです。 ggplotではなくplotで描いたバージョンも公開しました。 1. すっきりバープロット 普通に書くとこうなります。 dat <- data.frame(name = c("フリーザ", "ギニュー", "クリリン"), val = c(530000, 120000, 10000)) library(tidyverse) ggplot(dat, aes(x = name, y = val))+ geom_bar(stat = "identity") ggsave("fig1.png", width =5, height = 2.5) まず、メインとなるグラフ形式の整形。 1. X軸並び替え: aesのxをreorder(name, val)で並び替え 2. 数値表示:geom_textを使っ
概要 Rでデータの可視化を試してみたんだけど、ggplot2のTreemapがうまくいかない人のための記事。使用するデータは2015年度の政府統計です。 (ゼミでコードをシェアしたものの、コードだけでは伝わらないのでは、という懸念を解消するための記事でもある。) 解説 ライブラリとデータのセット #set libraries print(search()) library(gdata) #to read xls data library(treemap) #to use treemap plot library(dplyr) #to use great data modify function, like group_by #load data population <- read.xls("2015_population.xls") #delete useless columns pop
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く