KaggleなどでKernelからRmdファイルをダウンロードしてきて、手元で再現したいときがよくあるかと思います。 そんなときはpurl{knitr}を使用して、R実行スクリプトチャンクを抜き出します。 script.RmdからR実行部分を抜き出してみましょう。 hoge ```{r, cache=TRUE} # dotR script cat("We are hogehoge.") ``` hogehoge inputにRmdファイルを指定、outputに出力先と出力ファイル名を指定します。 # install.packages("knitr") library(knitr) # purl Rmd ## documentation=0 purl(input="input/script.Rmd", output="output/script0.R", documentation=0) #
プロットの作製 基本プロットを作る Geoms Aesthetics 違う種類のグラフを重ねる 参照線の追加 グループ分け 層別プロット スケールと軸 Scales 軸ラベルやタイトルの変更 軸の表示範囲を変更する 軸の左右の余白を削除する 軸表示の修飾 日時の軸スケール 軸区切り値の変更 軸スケールの変更 (変数変換) プロットのソート (離散型変数の水準をソートしてプロット) 座標系の反転:横向き箱ひげ図 極座標への変換:円グラフ 座標系のアスペクト比の指定 色セットの変更 ggplot2 のデフォルト色セットの定義 任意の色セットの利用 凡例 凡例位置の変更 凡例ラベルの変更 凡例の一部を削除する テーマ (グラフ背景・グリッドの色, マージン, フォント) Themes 定義済み theme の適用と編集 theme 要素と theme() の併用時の注意点 フォント変更 保存 g
Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode
ちょっとわけあって,欠損値の処理について勉強するソルジャー業務機会がありました。そこで,多重代入法(MI: Multiple Imputation)という方法をRで実行する方法を少しかじったのでメモ代わりに残しておきます。 ちなみに,欠損値の分析をどうするかという話は全部すっ飛ばしますのでそのあたりは下記リンクなどをご参照ください。 欠損値があるデータの分析 DARM勉強会第3回 (missing data analysis) 多重代入法に関してはこのあたりの資料をどうぞ。 多重代入法の書き方 公開用 様々な多重代入法アルゴリズムの比較(リンク先直PDF) ざっくりと多重代入法はなにをやるかというと,手法によってアルゴリズムは異なりますが,欠損値を推定して補完したデータをたくさん作って,そのデータを元にして行った分析(e.g., 回帰分析なり分散分析なり)の結果得られたパラメタの推定値を統
Edit: Incrementally change existing plot (2016-11-28) Use parameter sec.axis of scale_y_continuous() Simple example sapply(c("pipeR", "ggplot2", "readr", "lubridate"), require, character.only = TRUE) 要求されたパッケージ pipeR をロード中です 要求されたパッケージ ggplot2 をロード中です 要求されたパッケージ readr をロード中です 要求されたパッケージ lubridate をロード中です 次のパッケージを付け加えます: ‘lubridate’ 以下のオブジェクトは ‘package:base’ からマスクされています: date pipeR ggplot2 readr lu
ggplot2パッケージは図を作成するのに非常に強力なパッケージです。備忘録を兼ねて使い方・コマンドを一覧でまとめました。 紹介で使用しているデータはパッケージに付属しているdiamondsをデータフレームに変換しています。 tidyverseのバージョンは1.3.1。windows 11のR version 4.1.2で動作を確認しています。 ggplot2の概要ggplot2の特徴として、データを「読み込むコマンド」、データから「図をプロットするコマンド」、図を「装飾するコマンド」が明確に分かれているところが挙げられます。 慣れるまでは大変かもしれませんが、コマンドの修正箇所が明確ですので作業コストが低く、合理的なパッケージかと思います。具体的には「ggplot」コマンドでデータを読み込んでオブジェクトを作成後、プロット、装飾の流れとなります。 ggplot2のインストール下記コマンド
“The Grammer of Graphics” という体系に基づいて設計されたパッケージ。 単にいろんなグラフを「描ける」だけじゃなく「一貫性のある文法で合理的に描ける」。 Rのグラフ描画システムにはgraphicsとgridの2つが存在しており、 R標準のboxplot()やhist()などは前者の上に、 本項で扱うggplot2は後者の上に成り立っている。 使い方が全く異なるので、前者を知らずにいきなりggplot2から始めても大丈夫。 tidyverse に含まれているので、 install.packages("tidyverse") で一括インストール、 library(tidyverse) で一括ロード。 初学者向け講義資料2024 https://ggplot2.tidyverse.org https://r-graphics.org/ https://r4ds.hadle
先日、Spark 1.4.0 がリリースされ、多数のアップデートがある SparkR 運用モニタリングとDAGのビジュアライゼーション REST API DataFrame API この中でも、SparkR という、統計言語 R から Sparkを利用できる拡張を今回は試したい。他のHadoop関連記事では、無視されやすい Windows も取り扱う。 R には、以前から、SparkR-pkg(https://github.com/amplab-extras/SparkR-pkg/) というプロジェクトが Github上にあり、今回、これが本家に統合された形のようだ。 ビルド済みパッケージの入手 まずビルドからはじめるが、ビルドが面倒ならば、Windows にも対応したビルド済みパッケージを以下から入手できる。 Spark 1.4.0 のビルド 以前のこの記事シリーズと同じく、まずは、ビル
はじめに この記事はRStudio Advent Calendar 2016の5日目の記事です。タイトル通り、細かすぎて伝わってなさそうなGUI機能を、ボタンを中心に紹介します。 1. Go to Project directory RStudio Advent Calendar 2016 3日目でも「紹介された」Project機能ですが、これを使っていると、「Projectのホームディレクトリに戻りたい」ということがありませんか? 画像やソースコードなどを細かくフォルダに分けて管理していると、Projectのホームディレクトリに一発で戻りたいということが、僕はよくあります。 そんなとき、 のボタンを押すと、 一発でやりたい挙動ができて便利です。 ちなみに、Go to directoryボタンもあって、これを押すと任意のフォルダを開いてFilesパネルに表示することができます。 2. Sh
◎本題に入る前に1 余談・・・。 最近、徐々に内容が難しくなってきていて、自分の予備知識の足りなさを痛感している。ただ、今回の「Rによるデータサイエンス」の初読の目的は「やった感+写経による学習+概要を把握すること」なので、わからないことがあっても基本的には飛ばすし、深入りもしない。 ◎本題に入る前に2 本で述べられていることだけど、判別分析は最も古典的なパターン認識の手法の1つらしい。 で、パターン認識が何者なのかを私は知らないのだが、本には「識別・認識に関することを機械的に実現する研究分野」とある。 それでもよく分からないからググっていたら次の資料に遭遇。読み物として面白いので載せておく。 パターン認識と機械学習入門 from Momoko Hayamizu この資料には次のようにある。 認識とは、不要な情報を捨てること 特徴選択・特徴抽出が識別・認識の本質 これだけでだいぶ満足という
どうも、R歴4年目にしてR初心者勢です。こちらは2015年にRをはじめたい、更に知識を高めたい人に向けた記事と自分の抱負になります。 都度、参考になる本やURLを書いているので詳しくはそちらをご覧ください。 これからRをはじめる、ほとんどR使っていない人向け はじめに: どうしてRなのか よく言われることですが、 オープンソースでの開発 -> どういう機能をもっているか、どのように処理されるかがわかる マルチプラットフォームでの利用 -> 環境を選ばずどこでも同じように作業できるというのは大事 機能拡張(パッケージ、ライブラリ)に優れる -> 必要は発明の母の精神。俺がこういう機能欲しいから作るぜ★ ということを私は挙げます。 海外でもRは人気ですね -> TIOBE Software: Tiobe Index(これからはじめたいプログラミング言語としてRとSwiftへの注目が高まっている
[ 連載 ] フ リーソフトによるデータ解析・マイニング 第 17 回 R と判別分析 1 . 判 別分析とは 私 たち人間は毎日五感を通じて入力される膨大なデータを処理している。その中で最も多い のは、識別 (discrimination) 、分類 (classification) 、認識 (recognition) に関する処理である。例 えば、新聞や本などを読むときには、視覚を通じて入力されたデータと学習したデータとの照 合を行い、その文字の読み方、文字・単語の意味などを識別・認識する。識別に関する能力は 人間のみならず、他の動物も持っている。 こ の よ う な 識 別 ・ 認 識 に 関 す る こ と を 機 械 的 に 実 現 す る 研 究 分 野 が パ タ ー ン 認 識 (pattern recognition) で あ る 。 パ タ ー ン 認 識 の 典
「R(またはR言語とも呼ぶ)」は、オープンソースの統計解析向けのプログラミング言語とその開発実行環境である。現在はR Development Core Teamによって開発およびメンテナンスが進められており、GPLにもとづいて無料で利用することができる。LinuxやFreeBSDをはじめとするUNIX系OSやMac OS、Windowsなど、複数のOSでの開発・実行に対応している。 Rは利用目的を統計解析に特化した言語であり、データを効率的に操作・保管するための仕組みや、配列や行列の演算をサポートした演算子のセット、結果を可視化するためのグラフ作成機能などを備えている。プログラミング言語としては条件分岐やループ処理、ユーザー定義の再帰的関数、テキスト形式のデータ入出力などといった基本的な機能を備えているほか、オブジェクト指向の手法も取り入れている。 最大の強みは、多くの標準的な統計手法を標
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く