Tutorial R Tutorial ggplot2 ggplot2 Short Tutorial ggplot2 Tutorial 1 - Intro ggplot2 Tutorial 2 - Theme ggplot2 Tutorial 3 - Masterlist ggplot2 Quickref Foundations Linear Regression Statistical Tests Missing Value Treatment Outlier Analysis Feature Selection Model Selection Logistic Regression Advanced Linear Regression Advanced Regression Models Advanced Regression Models Time Series Time Serie
Rodeo (ロデオ) とは、Yhat 社 によって開発されている Python の統合開発環境 (IDE) です。同様の Python 開発環境には、PyCharm (PyCharm のインストール方法) や Eclipse プラグインの PyDev などがありますが、Rodeo は R の開発環境として広く使われている RStudio に似た UI (ユーザインターフェース) を持っているという特徴があります。このため、RStudio に扱いなれている方が Python を扱う際に、Rodeo を利用すると効率よく扱うことができるでしょう。 Rodeo は以下のように、RStudio と同じ画面構成となっていることがわかります。 Rodeo をインストール 本手順では、Windows 10 に Rodeo 2.0.13 (2016 年 8 月現在での最新版) をインストールする方法につ
※この投稿はR Advent Calendar 2016の6日目の記事です。 11/27のJapan.R 2016でLTしたtidyverseについて書きます。スライドは以下です。 Tidyverseとは from yutannihilation (ちなみに、この投稿のタイトルは@siero5335さんのツイートがエモくてすてきだったので勝手に拝借しました。すみません) tidyverseとは 単に「tidyverse」と言ったときに、この言葉が指す対象はいくつかあります。 概念 パッケージ (GitHub上の)組織 あと、誰が運営しているのか分からない謎のTwitterアカウントとかもあるんですが、あれはたぶんただの脇役なので捨ておきましょう。以下、順番に説明していきます。 tidyverse(概念) tidyverseというのは、R界の神として崇められるHadley Wickhamが作
Geoms - ��� ����!"#$geom��%&'�geom�()*+,(aes)���-./�!"01&2343�5/�6�7�891& :�;� <=>?@ a <- ggplot(seals, aes(x =long, y =lat)) b<- ggplot(economics, aes(date, unemploy)) a +geom_blank() (軸を拡大するのに使う) a +geom_curve(aes(yend=lat +delta_lat, xend=long+delta_long, curvature=z)) x, xend, y, yend, alpha, angle, color, curvature, linetype, size b+geom_path(lineend="butt", linejoin="round’ , linemitre=1) x,
StanのPythonバインディングであるPyStanが公開されて久しいですが、検索してもあんまり情報がヒットしません。ちょっと寂しいと思ったので、インストールやtraceplotの出力なども含めて、以下の本の5.1節「重回帰」の一部を実行してみました(ステマです)。 StanとRでベイズ統計モデリング (Wonderful R) 作者:健太郎, 松浦発売日: 2016/10/25メディア: 単行本 本自体の紹介は以前の記事を読んでいただければと思います。 「StanとRでベイズ統計モデリング」松浦健太郎 という本を書きました - StatModeling Memorandum インストール Windows 7 64bit、Python 3系でのインストール手順を説明します。 AnacondaでPythonなどをインストール コマンドプロンプトからpip install pystanでpy
dplyr tidyr dplyr::tbl_df(iris) dplyr::glimpse(iris) utils::View(iris) V Source: local data frame [150 x 5] Sepal.Length Sepal.Width Petal.Length 1 5.1 3.5 1.4 2 4.9 3.0 1.4 3 4.7 3.2 1.3 4 4.6 3.1 1.5 5 5.0 3.6 1.4 .. ... ... ... Variables not shown: Petal.Width (dbl), Species (fctr) dplyr::%>% . %>% : x %>% f(y) f(x, y) y %>% f(x, ., z) f(x, y, z ) - tidy : Tidy Data - R Tidy data R R ( ) ( ) ti
先日,比治山大学で行われたHijiyama.Rで発表したスライドを,スライドシェアにアップしました。 内容は,タイトルの通り,Rのpsychパッケージで因子分析をするための方法についてまとめています。特に,SPSSなどの商用ソフトではできない,きめ細やかな分析法について触れています。 また,以下にスライドで使っているRコードをまとめて書いておきます。 library(psych) library(GPArotation) data(bfi) dat <- bfi[1:25] #MAPや情報量規準を推定できる summary(VSS(dat,n=10,use="complete.obs")) #平行分析のコード fa.parallel(cor(dat, use="na.or.complete"), n.obs = 2436, n.iter = 50) #リストワイズ削除したデータのサンプルサ
ドーモ、インフラチームの湯谷(@yutannihilation)です。 サイボウズ社内では活発に社内勉強会が行われています。そんな社内勉強会のひとつ、Rと統計の社内勉強会で発表したグラフ描画ツール「ggplot2」についての資料を公開します。 ggplot2再入門 from yutannihilation www.slideshare.net (アニメーションを省略したので少し見づらいスライドもあります。ご容赦ください) Rと統計の社内勉強会について Rと統計の社内勉強会は、マーケティングや開発など様々な部署のデータ分析に興味がある人が集まって始まった勉強会です。なんだかんだでもうかれこれ2年ほど続いています。 毎週一回昼休みに集まって、統計に関する本を輪読したり、統計に関連する話題を持ち寄って発表したり、統計的なマサカリが飛んで来たりします。 私は統計のことがあまり分からないので、こうい
はじめに dplyrの使い方にちょっと慣れてくると、「あー、これもうちょっと簡単にできないの?」みたいな事が出てきたりします。 今回は、そんな悩みをほんのちょっと解決できるかもしれない、Window関数について解説したいと思います。 SQLに詳しい人はすぐイメージできると思いますが、私の周りにもWindow関数の存在自体を知らない人が結構居たのでいい機会なので、ざっくりまとめます。 dplyrってなんぞやという方は、基礎編の記事を見ていただければと。 Window関数を使うと簡単にできることの例 とは言っても、具体的に何ができるのか、分からなかったら読むのもメンドクサイので、まずは簡単にできることを紹介します。 ランキング(タイ順位考慮あり、なし等含む) 前日比、前週比(前後のレコードとの比較等) 累積(累積和等) 移動平均(Windowサイズの指定、Windowの位置、重み等) どれも自
第50回 TokyoR 発表資料 Stanコードは下のサイトで公開しております。 https://github.com/teuder/TokyoR50 Read less
ログインしないと見れないページをスクレイピングしたい。 rvest パッケージを使えばお手軽にできる。 試しに slideshare にログインしてみる。 library(rvest) # ログイン状態のセッションを作る ------------------------------------------------------------ login_page <- html_session("https://www.slideshare.net/login") login_form <- html_form(login_page)[[1]] %>% set_values(user_login="hoxo_m@gmail.com", user_password="****") session <- submit_form(login_page, login_form) # ログイン状態で
オブジェクト名(変数名)だけを入力してもオブジェクトの中身は表示されるが,以下に紹介する関数を用いることで,出力形式をカスタマイズすることが出来る. オブジェクトを表示する:print() オブジェクトを表示する基本的な関数は print() である. x <- "one" print(x) # "" ありで出力 [1] "one" print(x, quote=F) # "" なしで出力 [1] one 関数 page() で別ウインドウにオブジェクトの値を表示することも出来る.これは長いデータなどを表示する場合に有用である. 文字列を表示する:cat() 文字列を表示する基本的な関数は cat() である.関数 print() で文字列を表示すると前後にダブルクオート "" がつけられるが,cat() で表示すれはダブルクオート "" はつかない.文字列中で \\ ,\t ,\n ,\
こういう話がある。 声優のプロフィール - 驚異のアニヲタ社会復帰への道 しかし、この記事でスクレイピングしている声優のプロフィールページには男女のデータが載っていないようだ。 なんかもういろいろめんどくさいので声優の男女のアノテーションデータ持ってる人いないですか — YF (@Med_KU) 2015, 5月 17 ただし、同じサイトの声優一覧ページを見るとアイコンの色により男女が判定できる。 声優一覧(あ行) - 声優データベース こいつをスクレイピングして男女データを作ってみよう。 library(rvest) library(pforeach) npforeach(i=1:10, .c=rbind)({ cat(i, "\n") url <- sprintf("http://lain.gr.jp/voicedb/profile/list/cid/%d", i) Sys.sleep
みんな大好き dplyr では、データソースとしてデータベースを扱うことができます。 この機能は非常に便利なんですが、私以外に使っている人を見たことないです。 みんな知らないだけかもしれないので、Web上で読める情報をここにまとめておきます。 まず使い始めたい人は本家 Hadley の書いた Vignette Databases この Vignette を日本語で解説してくれる @dichika さんの記事 dplyrとデータベース あたりを読むといいと思います。 Vignette にはなぜか CASE 式の書き方が載っていないので次の記事も読むといいです。 dplyr で DB にクエリを投げる時に CASE 式を使いたい これで基本的なやり方はわかったはずです。 あとは DB が PostgreSQL なら環境変数を使って文字化けを防いだり接続を楽にしたりできます。 dplyr、Pos
はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、
こんにちは、買物情報事業部でサーバサイドの開発を担当している荒引 (@a_bicky) です。 今回のエントリでは R で A/B テストの結果検証を行う方法の一例について紹介します。 エンジニアでも自分の関わった施策の効果検証のために簡単な分析をすることがあるかと思いますが、そんな時にこのエントリが役立てば幸いです。 なお、次のような方は対象外です。 A/B テストや KPI の設計に興味のある方 この辺には全く触れません プログラミング初心者 わからない単語が大量に出てくるでしょう R で統計学や機械学習の手法をバリバリ使いたい方 世の中の “分析” の多くは集計処理がメインです Python, Julia など既に分析する上で使い慣れた言語・ツールがある方 今回のエントリ程度の内容であればわざわざ乗り換える必要もないでしょう OS は Mac を前提として説明するので、Windows
本連載「フリーソフトによるデータ解析・マイニング」は今月号をもって終了となります。 2003年8月に連載第1回として金明哲氏による「データ解析・マイニングとR言語」という記事が掲載されて以来、 約12年半149回に渡り、6名の執筆陣がR言語とデータ解析について解説してきました。 最終回となる今回は、過去10年余りのR言語の国内での普及、 そしてR言語の最新の動向について紹介しながら、有用な情報をピックアップしてみます。 なお今回の記事には著者の主観が多分に反映されていることをご承知おき下さい。 R言語の10余年史 コンピュータのバックアップ履歴を漁ってみたところ、著者自身は大学院生だった2003年頃からRを触り始めて、 2004年夏頃に研究のための分析ツールとしてRを導入していたようです。 この頃のRのバージョンは1.7から1.8だったように記憶しています。 本連載の開始時期と著者のR利用
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く