Rと統計に関するyou_505のブックマーク (37)

  • On the Importance of Community-Led Open Source

    Data ScienceOn the Importance of Community-Led Open Source Domino2018-07-16 | 33 min read Wes McKinney, Director of Ursa Labs and creator of pandas project, presented the keynote, "Advancing Data Science Through Open Source" at Rev. McKinney's keynote covered open source's symbiotic relationship with data science and the importance of community-led open source. This blog post includes distilled hi

    On the Importance of Community-Led Open Source
  • IDRE Stats – Statistical Consulting Web Resources

    Statistical Consulting Web Resources

  • p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた - 渋谷駅前で働くデータサイエンティストのブログ

    この記事は、やたらはてブを稼いでしまった前回の記事の続きです。 ASAのプレスリリース及び声明の中には、確かに「p値に依拠しない新たなアプローチの例」として予測値を重視するアプローチ*5、ベイジアンモデリング、決定理論的アプローチ*6およびfalse discovery rate*7といったものを用いるべき、という趣旨のコメントが入っています。とは言え、重回帰分析とか機械学習のような多変量モデリング(なおかつサンプルサイズも大きい)を伴うテーマならともかく、統計学的仮説検定のようなサンプルサイズも小さい(データも少ない)シチュエーションでどうやるんだよ的な疑問を持つ人も多いのではないかと。 そんなわけで、実際にそれっぽい各種検定の数々をStanによるベイジアンモデリングで代替してみたので、この記事ではその結果をつらつら紹介してみようと思います。テーマは前々回のこちらの記事の1節で取り上げた

    p値を計算したくなる検定の数々を試しにStanによるベイジアンモデリングで代替してみた - 渋谷駅前で働くデータサイエンティストのブログ
  • rOpenSci

    Transforming science through open data, software & reproducibility We help develop R packages for the sciences via community driven learning, review and maintenance of contributed software in the R ecosystem Our PackagesUse our carefully vetted, staff- and community-contributed R software tools that lower barriers to working with local and remote scientific data sources. Combine our tools with the

    rOpenSci
  • データのビジュアル化を最少の労力で: はじめに

    印刷物の制作には、数値の表から棒グラフや円グラフを作ったり、与えられたラフスケッチを清書するなど、データや情報をビジュアルに表現する作業がつきものです。これらの作業はドローソフトや画像処理ソフトで行うのが普通ですが、場合によってはかなりの労力やセンスを要求されます。そこで、MS Excelなどを用いたグラフ作成の自動化が広く行なわれていますが、パソコンソフトにはほかにも多くの自動描画ツールがあります。DTPの世界ではあまり知られていないツールを紹介します。 Graphviz graph-easy Google Chart Tools D3.js R ※この記事は、弊社 PR 誌『SHOWA NEWS』No.127に掲載された「データのビジュアル化を最少の労力で」を増補したものです。グラフ例や情報の参照先リンクを追加しました。

  • 多変数の相関を可視化する方法メモ - 草薙の研究ログ

    自分のためのメモ。 因子分析したら因子分析の結果だけ,構造方程式モデリングしたらパス図だけ,そういうのはちょっと好かない。殆どの場合相関行列があればそういうのは再現できるし,相関行列だって上手に可視化したら,例えば因子分析くらいの見通しはつく。これは,研究報告の透明性というのにもつながる。 ただ論文には紙幅の都合があって,いつでも,というわけにはいかないけど。 とにかく多変数の相関行列に対応するようなデータの可視化について,Rを用いてメモしていく。自分ですぐ忘れてしまうから。 (スクリプトの中に不自然に半角スペースとか入っているのは,hatena記法と変に被るところを避けるため) 散布図行列(SPLOM) 一番てっとり早い方法。 まずRのデフォルト関数で「データフレーム形式」でデータを読み込む。 例えばエクセルからクリップボードにコピーした状態なら, dat<- read="" table

    多変数の相関を可視化する方法メモ - 草薙の研究ログ
  • [R] 散布図行列 (corrplot, pairs, GGally)

    データが与えられた時にはまず可視化をします。そのデータがどのような仕組み(メカニズム)で作られてそうなったかを考えるために必須のプロセスです。しかしながら、どんな可視化がベストかははじめの段階では分からず、とにかくプロットしまくることになります。そのとっかかりに僕がよく使うのが散布図行列(scatter matrix,scatter plot matrix)です。 今回は3つほど紹介します。 ●1. {corrplot}パッケージの corrplot()関数 5行目で相関係数行列を作ってそれを渡しておしまいです。相関係数行列の作り方は各自の自由です。上記ではSpearmanの順位相関係数を使っていますがMICとかでもいいと思います。 このcorrplotのデメリットとしましては散布図は表示できない点です。散布図行列と言っておきながらすみません。説明変数が100個以上あるときなどは散布図を描

    [R] 散布図行列 (corrplot, pairs, GGally)
  • biostatistics | バイオスタティスティクス | 生物統計学

    農学生命情報科学特論 I @東京大学アグリバイオインフォマティクス教育研究ユニット (2023-10) プログラミング言語未経験者を対象とした Python 入門講義。農学や分子生物学などの分野で利用される Python の最新事例を紹介しながら、Python の基礎文法の講義を行う。

  • 50+ Data Science and Machine Learning Cheat Sheets - KDnuggets

    50+ Data Science and Machine Learning Cheat Sheets Gear up to speed and have Data Science & Data Mining concepts and commands handy with these cheatsheets covering R, Python, Django, MySQL, SQL, Hadoop, Apache Spark and Machine learning algorithms. There are thousands of packages and hundreds of functions out there in the Data science world! An aspiring data enthusiast need not know all. Here are

  • R言語による多変量時系列分析−Dynamic Conditional Correlation GARCH Model - hamadakoichi blog

    R言語による多変量時系列分析。 複数グループ・複数項目の時系列データで時系列間の関係性・影響を明らかにする。 以下、実行可能なR言語ソースコードを用い紹介する。 例:複数時系列間の関係性・影響 農家ごとの農地の肥沃度・人の各仕事の労働量・各肥料の投入量の各時系列、および、生産量の時系列から、肥沃度・各労働量・各肥料量が生産量に与える影響を明らかにする。 国ごとの各政策種類への投資額の時系列、および、GDP から、各政策投資がGDPに与える影響を明らかにする 地域ごとの各キャンペーン種類の投入量の各時系列、および、商品売上の時系列から、各地域の各キャンペーンが売上に与える影響を明らかにする。等。 R言語による時系列分析入門 R言語でのAR、ARMA/ARIMA、ARFIMA、ARCH、などの時系列モデルの入門資料(※1年前のTokyo.R 講師資料) http://d.hatena.ne.j

    R言語による多変量時系列分析−Dynamic Conditional Correlation GARCH Model - hamadakoichi blog
  • R言語による多変量時系列分析−Panel Linear Model - hamadakoichi blog

    R言語による多変量時系列分析。 複数グループ・複数項目の時系列データで時系列間の関係性・影響を明らかにする。 以下、実行可能なR言語ソースコードも用い紹介する。 例:複数時系列間の関係性・影響 農家ごとの農地の肥沃度・人の各仕事の労働量・各肥料の投入量の各時系列、および、生産量の時系列から、肥沃度・各労働量・各肥料量が生産量に与える影響を明らかにする。 国ごとの各政策種類への投資額の時系列、および、GDP から、各政策投資がGDPに与える影響を明らかにする 地域ごとの各キャンペーン種類の投入量の各時系列、および、商品売上の時系列から、各地域の各キャンペーンが売上に与える影響を明らかにする。等。 R Library 複数時系列の時系列分析として、R言語では plm 、 ccgarch 等のパッケージがあるが、今回は plm (Panel Linear Model) を紹介する。 ※参考:Pa

    R言語による多変量時系列分析−Panel Linear Model - hamadakoichi blog
  • Rで時系列分析 - Akihiko NODA

  • 【Japan.R 2015】国内R言語最大級のイベント「Japan.R」に遊びに行ってきた! - 黄昏より暗きもの、血の流れより赤きもの

    2015-12-06 【Japan.R 2015】国内R言語最大級のイベント「Japan.R」に遊びに行ってきた! R 確率 統計 イベントレポート 今日は東京の銀座のリクルート GINZA8 11Fホールにて行なわれた「Japan.R 2015」へ行ってきた感想を書こう。 イベントはR言語と言うプログラムを使って、確率統計・機械学習と言った数学的なプログラムを組み、ある物事の傾向を調査してみた。あるいはそれらを有利に進める為のツール群の発表が行なわれていた。今日は、その中で自分が特に面白かった発表をまとめてみたい。CET(Capture EveryThing)プロジェクトにおける 機械学習・データマイニング最前線(高柳氏) 自社のデータ分析基盤やそれらの取り組みについて発表。コールセンターのログを見る。つながりにくい時間帯を掴んで、つながりやすくすると言ったことにFluentdを活用

    【Japan.R 2015】国内R言語最大級のイベント「Japan.R」に遊びに行ってきた! - 黄昏より暗きもの、血の流れより赤きもの
  • Logics of Blue

    はじめてきた方はサイト案内やサイトマップをご覧ください。 管理人Twitter始めました。一部のコードはGitHubで管理するようにしました。 プライバシーポリシーはこちらです。 ★2022年度の統計学の講義資料はこちらから閲覧できます。 ●書籍情報:Pythonで学ぶあたらしい統計学の教科書 [第2版] 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:意思決定分析と予測の活用 基礎理論からPython実装まで 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:R言語ではじめるプログラミングとデータ分析 書籍のサポートページはこちらです(サンプルコードやデータもこちらです)。 ●書籍情報:RとStanではじめる ベイズ統計モデリングによるデータ分析入 書籍のサポートページはこちらです(サンプルコードやデータもこちらで

  • Rで計量時系列分析:VARモデルから個々の時系列データ間の因果関係を推定する - 渋谷駅前で働くデータサイエンティストのブログ

    前回の記事ではVARモデルの基礎までを取り上げました。ということで、今回はVARモデルに基づいて異なる時系列同士の因果関係を推定する3つの手法について取り上げてみようと思います。 ということで毎回毎回しつこいですが、使用テキストはいつもの沖です。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者:竜義, 沖朝倉書店Amazon 以下タイトルにのっとってRで各モデルの挙動を見ながらやっていきます。 必要なRパッケージ&サンプルデータ {vars}をインストールして展開して下さい。なお、Granger因果のグラフ構造表現及び偏Granger因果は、実はそもそもRでは実装されていません。ここだけMatlabの話題になりますので、悪しからずご了承を。。。 それから今回のサンプルデータですが、また{vars}同梱のCanadaでは芸がないので違うデータを使うことにします。沖

    Rで計量時系列分析:VARモデルから個々の時系列データ間の因果関係を推定する - 渋谷駅前で働くデータサイエンティストのブログ
  • R vs Python:データ解析を比較 | POSTD

    主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま

    R vs Python:データ解析を比較 | POSTD
  • Data Apps for Production | Plotly

    July 24 🚢 Chart the future of dynamic data + AI with the newest Plotly product launch. Get Your Pass!

    Data Apps for Production | Plotly
  • Rを使って計量経済分析 - Akihiko NODA

    どうやったらいいかとというと、以下の関数を使います。 q.growth <- function(x) { n <- length(x) x1 <- x[-(1:4)] x4 <- x[-((n-3):n)] z1 <- (x1-x4)/x4*100 z1 } この関数をつかって、 > q.growth(INV)->I > q.growth(GDE)->Y と入力すれば、四半期の対前年同期比伸び率データをつくれます。 さて次に単回帰分析してみましょう。その前に、それぞれの変数のサンプルサイズをそろえないといけません。 > length(R) [1] 109 > length(I) [1] 105 という結果からもわかるとおり、このままだと変数ごとに長さが違ってしまうので、回帰分析できません(被説明変数と説明変数は、同じデータ数でないと回帰分析できません)。 > R[5:length(R)]-

  • 回帰分析(3)

    であるが,説明変数xを上式に代入して求めた被説明変数Ŷと実際のデータから読み取れるYには誤差が存在している.これを残差という.残差uは, 回帰分析(最小2乗法)ではこのuに関して以下の仮定を置いている. uの平均は0 uの分散は一定 uはxと無相関 uは互いに無相関 残差を確認するには,これを散布図で視覚化すると良い.「回帰分析」ツールの中に残差を計算する箇所があるので,この「残差」と「残差グラフの作成」チェックしてみる.実行すると,回帰結果の他に各残差の値,残差のグラフが表示される. 例では残差はランダムに現れている(すなわち,良好な推定ができた)ように見える.uがxと共に増加(減少)している,uが規則性を持っているように観察される,などの傾向が観察されるのなら,推定がうまく行っていない,あるいは他に有力な説明変数がある,など回帰式そのものを見直す必要がある. その他,残差から分かる問題

  • Quick-R: Regression Diagnostics

    An excellent review of regression diagnostics is provided in John Fox's aptly named Overview of Regression Diagnostics. Dr. Fox's car package provides advanced utilities for regression modeling. # Assume that we are fitting a multiple linear regression # on the MTCARS data library(car) fit <- lm(mpg~disp+hp+wt+drat, data=mtcars) This example is for exposition only. We will ignore the fact that thi