タグ

DATAとRに関するchess-newsのブックマーク (16)

  • Tidyverse

    The tidyverse is an opinionated collection of R packages designed for data science. All packages share an underlying design philosophy, grammar, and data structures. Install the complete tidyverse with: install.packages("tidyverse") See how the tidyverse makes data science faster, easier and more fun with “R for Data Science (2e)". Read it online, buy the book or try another resource from the comm

    Tidyverse
  • installr パッケージで R のバージョンアップ - Data science & Software development

    installr パッケージ は Windows 版 R のバージョンアップや Rstudio や git などの外部アプリケーションのインストールが R から行える R パッケージで、R-bloggers の管理人でもある Tal Galili 氏によって開発されています。 また、R のアンインストール、OS のリブート、RGui と RStudio のどちらからから実行しているかの確認など、インストール関連の機能も有しています。 この記事では installr を使って R のバージョンを行う方法と installr パッケージで Rstudio をインストールする方法を紹介します。 installr パッケージをインストールし、ロードする R を起動し、下記コマンドを実行します。 install.packages("installr") library(installr) R のバー

    installr パッケージで R のバージョンアップ - Data science & Software development
  • 整然データってなに?

    TokyoR 62 (2017年6月24日)で発表したときのスライドです。整然データ (tidy data) というデータ分析に役立つ概念を紹介し、Rでそれを扱うための手法を簡単に紹介しています。Rの初心者向けです。

    整然データってなに?
    chess-news
    chess-news 2017/06/26
    関数を待ってたんだ!!
  • グラフ描画ggplot2の辞書的まとめ20のコード – MrUnadon – Bayesian Statistical Modelings with R and Rstan

    Rによる美しいグラフの作成に欠かせないパッケージ "ggplot2" ですが、 グラフ作成のたびにネット検索したり自分の以前のコードを掘り起こしたりしませんか? author: Unadon (見習い飯炊き兵) 動作環境:Mac OS Sierra 10.12.1; R version3.3.1; rstan 2.10.1 まずはTwitterでこの記事をシェアする はじめに ggplot2のグラフ作成で迷った時、チートシートやマニュアルは役に立つけど援用しにくいんですよね。「何を言ってるのかわからない」っていうのが結構あります。 「軸ラベル」と「軸タイトル」ってどれがどれなん?など、そういう初歩的なところで引っかかったりして、 目的(こういう図にしたい!)と手段(コード)の間の知識を埋めるのが手間で「もうイヤ!」ってなる。 で、次すぐに忘れてる。 なので、頻繁に使用するggplot2の基

    グラフ描画ggplot2の辞書的まとめ20のコード – MrUnadon – Bayesian Statistical Modelings with R and Rstan
    chess-news
    chess-news 2017/04/02
     サンプルコード
  • 【翻訳】整然データ|Colorless Green Ideas

    効果的なデータ分析に関して、「整然データ」という概念を提唱した論文 “Tidy Data” の全訳。整然データは、Rなどでデータ分析を容易にする有用な概念である。 ここに公開するのは、以下の論文の全訳である。 Wickham, H. (2014). Tidy data. Journal of Statistical Software, 59 (10). doi:10.18637/jss.v059.i10 この論文は、「整然データ」(tidy data) という概念を提唱したものである。これは、Rなどでデータ分析を容易にする有用な概念になっている。 なお、この概念についての簡単な解説として、「整然データとは何か」という文章を用意したので、先をそちらを読んでもよいだろう。また、“tidy” という英語をなぜ「整然」という日語に訳したかについては「なぜ“tidy data”を「整然データ」と訳

    【翻訳】整然データ|Colorless Green Ideas
  • 整然データとは何か|Colorless Green Ideas

    整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d

    整然データとは何か|Colorless Green Ideas
    chess-news
    chess-news 2017/01/09
     ほんとこれ 変換方法をもっと知りたい
  • R言語徹底解説を読む (1) ようこそRプログラミング - 僕らはRを愛しすぎてる

    この記事が想定する読者層 もしあなたが「プログラマー」ならば、この記事はまるで不要かもしれません。 ここで言うプログラマーとは、たとえば以下のような習慣を持っている人です。 ほとんど同じ処理をソースコード中に2回以上書いていたら違和感を感じる 出力結果が変わらなくても、実行速度や理解しやすさのためにソースコードを書き直すことがある Gitなどのバージョン管理システムを使うことができ、過去のソースコードを「日付の含まれたファイル名でバージョンごとに別ファイルとして保存しておけばよい」とは考えない 動作テストを自動化し、ソースコードを書き換えてもそれぞれの関数の挙動が意図したものになっているかを確認できる この記事は、ひょんなことからRに出会い、コードをコピペで動かせるようになり、 「いつかコピペじゃないコードが書けるようになりたい」 「他のプログラミング言語もできるようになりたい」 とぼんや

    R言語徹底解説を読む (1) ようこそRプログラミング - 僕らはRを愛しすぎてる
  • R言語で統計解析入門: データフレームの行と列の入れ替え (転置行列) 梶山 喜一郎

    > A <- matrix( c(1,2,3,4,5,1,2,3,4,5,1,2,3,4,5), nrow=5, ncol=3 ) # 行列Aを作る > A [,1] [,2] [,3] [1,] 1 1 1 [2,] 2 2 2 [3,] 3 3 3 [4,] 4 4 4 [5,] 5 5 5 > A1 <- t ( A ) #  転置行列A1を作る > A1 [,1] [,2] [,3] [,4] [,5] [1,] 1 2 3 4 5 [2,] 1 2 3 4 5 [3,] 1 2 3 4 5 > A2 <- data.frame( A1 ) #  マトリック形式 A1 をデータフレーム A2 にする > colnames( A2 ) <- c( "変数か", "変数き", "変数く", "変数け", "変数こ") > rownames( A2 ) <- c( "変数A", "変数B

    R言語で統計解析入門: データフレームの行と列の入れ替え (転置行列) 梶山 喜一郎
  • 30分でわかる『R』によるデータ分析|データアーティスト

    オープンソースの統計解析ソフトである『R』は、多様な統計手法での解析が可能かつ高度なグラフィックを備えており、数学だけでなく商業、医療など幅広い分野のデータ解析において役立てられています。セッションでは『R』の基の使い方から実際のデータマイニングの手法に至るまでを、データサイエンティストの視点からわかりやすくご紹介いたします。 ------ 『講師紹介』 山 覚〔データアーティスト〕 データアーティスト株式会社 代表取締役社長 東京大学博士過程在籍時にアイオイクス株式会社のLPO事業に参画し、導入社数300社超のLPOツール「DLPO」の全アルゴリズムを開発。データマイニングを用いたウェブページの改善実績100社以上。論理化されたものはシステムで処理し、人が人にしかできない営みに集中する環境を作ることを理念として、データアーティスト株式会社代表に就任。Read less

    30分でわかる『R』によるデータ分析|データアーティスト
    chess-news
    chess-news 2016/02/16
     ざっくり クラスタイング
  • https://atnd.org/events/70095

  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 * dplyrを使いこなす!Window関数編 * dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデ

    dplyrを使いこなす!基礎編 - Qiita
  • Data Wrangling日本語訳.pptx

    dplyr tidyr dplyr::tbl_df(iris) dplyr::glimpse(iris) utils::View(iris) V Source: local data frame [150 x 5] Sepal.Length Sepal.Width Petal.Length 1 5.1 3.5 1.4 2 4.9 3.0 1.4 3 4.7 3.2 1.3 4 4.6 3.1 1.5 5 5.0 3.6 1.4 .. ... ... ... Variables not shown: Petal.Width (dbl), Species (fctr) dplyr::%>% . %>% : x %>% f(y) f(x, y) y %>% f(x, ., z) f(x, y, z ) - tidy : Tidy Data - R Tidy data R R ( ) ( ) ti

  • R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments

    これの続き。よく使う集約/変換処理もまとめておく。 準備 library(dplyr) library(tidyr) (df <- dplyr::tbl_df(iris)) # Source: local data frame [150 x 5] # # Sepal.Length Sepal.Width Petal.Length Petal.Width Species # 1 5.1 3.5 1.4 0.2 setosa # 2 4.9 3.0 1.4 0.2 setosa # 3 4.7 3.2 1.3 0.2 setosa # .. ... ... ... ... ... グルーピング/集約 ある列の値ごとに集計 Species 列ごとに Sepal.Length 列の合計を算出する場合、 df %>% dplyr::group_by(Species) %>% dplyr::summa

    R dplyr, tidyr でのグルーピング/集約/変換処理まとめ - StatsFragments
    chess-news
    chess-news 2015/09/08
     Rにおけるデータ前処理について
  • R-Source

    作業ディレクトリの変更 データを扱う際,まず,データがあるディレクトリ(フォルダ)に作業ディレクトリを変更する必要がある.作業ディレクトリの変更方法は こちら を参照されたい. データフレームの作成(テキストファイルから) 以下に出てくるデータは全て作業ディレクトリにあるものとする.もし,データが作業ディレクトリに無い場合は,ファイルを指定する場所にファイルのパスを指定すればよい(例:x <- read.table("C:/data.txt") ). data01.txt のようなデータは,関数 read.table() で読む.データファイルに列名が無いので,R が勝手に列名を決めている.

    chess-news
    chess-news 2015/08/27
    データ読み込み
  • Rのspdepのパッケージを使って、コンビニのドミナント出店戦略を定量化する - Analyze IT.

    こんにちは、集計野郎マクガイバーです。 コンビニの出店戦略ではセブンイレブンのドミナント戦略が有名で公式ホームページにも記載してあるくらいです。 しかし、その実態に関してはどの程度そうであるのかといったような厳密な検証情報はなく、特定都市における出店数を比較したようなものや、単に四国にセブンイレブンが出店していないという情報を根拠にしたものが多数見られます。 関西ではローソンがドミナントしているのはいうまでもないし、特定の地域を抜き出して一般的な結論を持ち出すのは問題に思われます。 幸いなことに去年集めたものですが、データが手元にあるので、今日はこのドミナント出店戦略を数値化、可視化してみます。 (以後、ですます調ではなくなります。) ロウデータで見る各コンビニの出店戦略 ここでは、ロウデータを地図上にプロットして各コンビニチェーンの出店戦略がどのようになっているかを見てみる。 赤:セブン

    Rのspdepのパッケージを使って、コンビニのドミナント出店戦略を定量化する - Analyze IT.
  • R言語で統計解析入門: 目次1 テクニカルデータプレゼンテーション  梶山 喜一郎

    Technical Data presentation in R コピペで学ぶ Rでテクニカルデータプレゼンテーション 1.基礎統計解析編 グラフィックス・リテラシ-教育: 「図学 I ・図形情報 I ・統計学」科目 修了後のコースウェア 福岡大学工学部図学教室   梶山 喜一郎 ・つまみいで,学習しないように願います. ・データの可視化を体系・系統だったスキルにするために順を追って学習する. ・統計ブームに乗っている学習者も先人に感謝の気持ちを.さらに, ・確かなスキルにするために,教科書・解説書を理解し,Rスクリプトで確認. A. はじめに--ここは統計・解析の必要を味わった後で読めばよい まず,統計の手続きを実行する.慣れたら統計的に考えよう. 学校の統計学を復習--買った教科書とノートをまた読むだけ a. 測定と尺度 Measurement and scale b. 記述統計学の

  • 1