タグ

Rに関するhirokistのブックマーク (30)

  • R言語徹底解説を読む (1) ようこそRプログラミング - 僕らはRを愛しすぎてる

    この記事が想定する読者層 もしあなたが「プログラマー」ならば、この記事はまるで不要かもしれません。 ここで言うプログラマーとは、たとえば以下のような習慣を持っている人です。 ほとんど同じ処理をソースコード中に2回以上書いていたら違和感を感じる 出力結果が変わらなくても、実行速度や理解しやすさのためにソースコードを書き直すことがある Gitなどのバージョン管理システムを使うことができ、過去のソースコードを「日付の含まれたファイル名でバージョンごとに別ファイルとして保存しておけばよい」とは考えない 動作テストを自動化し、ソースコードを書き換えてもそれぞれの関数の挙動が意図したものになっているかを確認できる この記事は、ひょんなことからRに出会い、コードをコピペで動かせるようになり、 「いつかコピペじゃないコードが書けるようになりたい」 「他のプログラミング言語もできるようになりたい」 とぼんや

    R言語徹底解説を読む (1) ようこそRプログラミング - 僕らはRを愛しすぎてる
    hirokist
    hirokist 2016/07/11
  • Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments

    データの前処理にはいくつかの工程がある。書籍「データ分析プロセス」には 欠損など 前処理に必要なデータ特性の考慮とその対処方法が詳しく記載されている。 が、書籍のサンプルは R なので、Python でどうやればよいかよく分からない。同じことを pandas でやりたい。 データ分析プロセス (シリーズ Useful R 2) 作者: 福島真太朗,金明哲出版社/メーカー: 共立出版発売日: 2015/06/25メディア: 単行この商品を含むブログ (2件) を見る とはいえ、pandas 自身は統計的 / 機械学習的な前処理手法は持っていない。また Python には R と比べると統計的な前処理手法のパッケージは少なく、自分で実装しないと使えない方法も多い。ここではそういった方法は省略し、pandas でできる前処理 / 可視化を中心に書く。 また、方法自体の説明は記載しないので、詳細

    Python pandas 欠損値/外れ値/離散化の処理 - StatsFragments
  • Python と R で連携する - Qiita

    R と Python の連携を考える 最近 R による基的なデータプロッティングやファイル入出力の方法について説明しました。 データ分析の言語としては Python ですべてをやろうという傾向があるようですが、やはり過去の膨大な R による資産は魅力的でそう簡単に切り捨てられるものではありません。 よくあるケースとしては、部分的なデータ解析については R を流用したいが、全体的なプログラミングは Python で書きたいというシーンでしょう。また、プロッティングだけ R でおこないたいという場合もあるでしょう。こんなとき Python と R で連携できれば問題が一気に解決して便利です。 Python から R を利用するライブラリ PypeR かつては RPy2 というライブラリが使われていたようですが、最近使われており主流なのは PypeR です。 PypeR のインストール インス

    Python と R で連携する - Qiita
  • 統計的消去で擬似相関を見抜こう! - ほくそ笑む

    今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような

    統計的消去で擬似相関を見抜こう! - ほくそ笑む
  • むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )

    はじめに なぜか唐突にRブームが俺の中でやってきてしまってどうしようもないので、Rのを注文しまくってたりしていたら、下のようなの山が出来てしまいました。 これらのを付箋でペタペタしながら読み進めていくうちに、段々とRというのはどういう言語で、どういう風に勉強するといいのか、という方針が固まってきたので、ここにメモをしておきます。 Rとはどのような言語か 一言で、しかも乱暴に言ってしまうならば「統計に特化したPHP」というのが一番雰囲気を伝えられるかもしれない。いや、PHPの悪評は知っているし、ガチでRをやっている人にとっては嫌がられることもわかっているけど、あえてそういう説明が、あくまで入り口としてはわかりやすいのではないかと。 どういうことかというのを言い訳します。 自分が読んだ感じだと、統計というのは、「何らかのデータ」と「分析するためのツールとしての数式」と「その数式が意図する

    むしろ数式が苦手だけど統計を勉強したいという人はRをやるといいかもしれない - Line 1: Error: Invalid Blog('by Esehara' )
    hirokist
    hirokist 2015/03/13
  • とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】

    『MarkeZine』が主催するマーケティング・イベント『MarkeZine Day』『MarkeZine Academy』『MarkeZine プレミアムセミナー』の 最新情報をはじめ、様々なイベント情報をまとめてご紹介します。 MarkeZine Day

    とっつきにくいけど実はエクセル以上に賢いヤツ フリー統計解析ソフトウェア「R」を触ってみよう【R入門講座】
    hirokist
    hirokist 2015/03/13
  • 統計解析ソフト「R」で取り組む回帰分析

    印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 前回、オープンソースの統計解析ソフト「R」の簡単な使い方を説明しました。今回は、実際にRにあるデータセットを使い、回帰分析に取り組み、その結果をどのように使っていくかを説明したいと思います。 回帰分析とは 回帰分析とは、「目的変数」と「説明変数」間の関係を表す式を統計的な手法によって推計する分析のことです。 目的変数とは予測の対象とする「量」のことであり、説明変数は目的変数を説明、つまり物事の原因を表すのに使う変数です。この2つの変数にどんな関係があるのか、例えば天候という変数は、売り上げにどう影響するかを数式で表すために回帰分析を使います。 今回の記事についての回帰分析は特に断りがない場合、すべて線形回帰分析、つまり「直線をモデル」に

    統計解析ソフト「R」で取り組む回帰分析
    hirokist
    hirokist 2014/09/11
  • 三次元散布図をRで描くのに画期的な新機能がRGLパッケージに加わった - ほくそ笑む

    以前、三次元散布図をRで描いてみたという記事で紹介したRGLパッケージに画期的な新機能が加わったので紹介します。 (情報源:R: Interactive 3D WebGL plot of time-space cube with RGL | geolabs) RGLパッケージの良いところは、3次元プロットをマウスドラッグでグリグリ動かせるところなのですが、いざ、ファイル出力しようとすると、静止画か動画でしか保存できず、インタラクティブな3次元プロットをそのままファイルに保存することができないというのが欠点でした。 しかし今回、新機能として、WebGL で動く HTML ファイルとして保存できる機能が付加されたようです。 さっそく試してみましょう。 install.packages("rgl") library("rgl") data(trees) plot3d(trees) writeWe

    三次元散布図をRで描くのに画期的な新機能がRGLパッケージに加わった - ほくそ笑む
    hirokist
    hirokist 2014/05/21
  • http://r.livedocs.net/

  • Google Sites: Sign-in

    Not your computer? Use a private browsing window to sign in. Learn more about using Guest mode

    Google Sites: Sign-in
    hirokist
    hirokist 2013/04/09
  • 統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む

    はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、

    統計を学びたい人へ贈る、統計解析に使えるデータセットまとめ - ほくそ笑む
  • Rが使えるフリをするための14の知識

    米国FDAで公認され、ハーバード大学やイェール大学の授業で利用されるようになり、世間での認知度が着実に上昇している統計用プログラミング環境のRだが、ユーザーなのか、ユーザーになりたいのか、ユーザーとして振舞いたいのか分からない人が増えてきた。 スノッブなユーザーとして振舞う場合は、Rの特性を語れる必要があるので、ユーザーになるよりもRへの知識や理解が必要で、実は難易度が高い行動である。それでもあえて意識の高いRユーザーとして振舞いたい人々のために、最低限求められる事のチェック・リストを用意してみた。 1. 参考文献や参考ページを押さえておく 一番大事な事だが、参考文献や参考ページを押さえておこう。公式サイトで配布されている、「R 入門」「R 言語定義」「R のデータ取り込み/出力」は持っておくべきだ。R-TipsやRjpWikiも参考になる。 2. 演算子や制御構文をマスターする 四則演算

    Rが使えるフリをするための14の知識
    hirokist
    hirokist 2012/02/06
  • MCMCの勉強(1): Taglibro de H

    今さら感はあるが、MCMC (Markov Chain Monte Carlo; マルコフ連鎖モンテカルロ)を使えるようになろうと、まずは簡単な例から試してみた。 手始めに、正規乱数から生成した標の平均と標準偏差を推定してみる。 やはりRを使用。MCMCpackパッケージを あらかじめインストールしておいて、呼び出す。MCMCpack中のMCMCmetrop1R()関数を利用して、メトロポリス法によるMCMC推定をおこなう。 library(MCMCpack) 乱数系列を初期化。 set.seed(1) 平均10、標準偏差3の乱数を1000個生成して、xに入れる。 m <- 10 s <- 3 x <- rnorm(1000, m, s) MCMC推定に使用する関数を用意する。betaは要素数2のベクトル。beta[1]が平均、beta[2]が標準偏差で、betaを推定する。関数の返り値

    MCMCの勉強(1): Taglibro de H
  • Rでマルコフ連鎖モンテカルロ法を試す - 餡子付゛録゛

    地味にここ5年間ぐらい、マルコフ連鎖モンテカルロ法(MCMC)が流行っているようです。汎用的な分布でベイズ推定を行う時に有用な数値解析アルゴリズムの総称で、Metropolis-Hastings algorithm(M-Hアルゴリズム)などが主要なメソッドとして使われています。ただし、ベイズ推定以外でも利用する事はできます。 RでもMCMCpackと言うパッケージがあるのですが、取扱説明書を見る限り、ベイズ推定が前提となっておりM-Hアルゴリズムだけを試すことは難しそうです(追記:MCMCmetrop1R()関数で利用できます)。もっとも同アルゴリズムは比較的シンプルなモノなので、ポアソン分布から乱数を作成し、それを推定する練習をしてみました。 1. ポアソン分布からλ=1の乱数を作成 ポアソン分布からλ=1の乱数を作成します。練習のためにポアソン分布を利用したのは、推定するパラメーターが

    Rでマルコフ連鎖モンテカルロ法を試す - 餡子付゛録゛
  • Rと手作業で覚える最尤法 - 餡子付゛録゛

    OLSより進んだ統計手法で最初に覚えるのは最尤法だと思います。大半の人はツールとして知っていて、あまり中身を意識していない気がするのですが、「尤度」の説明無しで『尤度が最大になるパラメーターを求める方法』と言う説明が横行しているのは、問題があるかも知れません。 最尤法は、ある分布から観測値が取り出されたとして、“そうなる確率”が最も高くなるように分布の具体的な形状を決めるやり方です。“そうなる確率”を尤度と言います。こう書くと易しい事なのか難しい事なのか判別もつかないと思うので、実際に最尤法を解いてみましょう。 まず、何も考えずにトライ&エラーで最尤法を試みるやり方を説明した後に、教科書的な最尤法の解法を説明します。 1. 何も考えずにトライ&エラーで最尤法を試みる ある正規分布から値を3つ取り出したら、11 13 23だったとしましょう。このサンプルが“もっともらしい”正規分布の平均と分

  • 「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11

    「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11Read less

    「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11
    hirokist
    hirokist 2012/01/25
    Rで決定木、RandomForests実行
  • 勉強会発表内容一覧 - Japan.R WIki

    各コミュニティで実施された勉強会の内容の一覧です。 気がついた方はどんどん追記していただけると助かります 量が増えてきたらページを分けも検討します Nagoya.R Tsukuba.R Tokyo.R Nagoya.R Nagoya.R #4 (2010/10/30): http://corpus-study.info/nagoyar/wiki.cgi?page=NagoyaR%234 タイトル 発表者 概要 資料

    hirokist
    hirokist 2012/01/24
    R勉強会発表資料
  • 第1回R勉強会@東京 開催しました - yokkunsの日記

    ちょっと遅くなってしまいましたが、無事、第1回R勉強会@東京を開催しました。 第1回R勉強会@東京 : ATND 今回初めての主催だったんですが、まさかRの勉強会で満員以上になるとは思ってなかったのでびっくりしました。 自分が気に入った言語とかソフトウェアが、こんなに使ってる人or これからやっていきたいと思っている人がいっぱいいるのはうれしいですね。 発表資料 資料はGoogleグループとSlideshareにアップしました。 第1回R勉強会@東京View more presentations from yokkuns. 何か不明なとこや、おかしいところがあったらご指摘ください。 反省点 反省すべきところは、多々あると思いますが、今回は何より範囲が広すぎました(自分にとって)。 後半の推測統計のあたりから資料も理解も追いついていなくて、ちょっとグタグタになってしまいました。。。 次回以降

    第1回R勉強会@東京 開催しました - yokkunsの日記
    hirokist
    hirokist 2012/01/23
  • http://atnd.org/events/22039

    http://atnd.org/events/22039
    hirokist
    hirokist 2012/01/11
  • Easy PCA - 簡単に主成分分析ができるページ

    At this site, you can easily execute PCA(principal components analysis). You can try by clicking the 'Show Demo' button.

    hirokist
    hirokist 2012/01/11