Read it now on the O’Reilly learning platform with a 10-day free trial. O’Reilly members get unlimited access to books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers. Learn how to perform data analysis with the R language and software environment, even if you have little or no programming experience. With the tutorials in this hands-on guide, youâ??
どんなデータでも(※)線形分離可能にしてしまう技術,Vanishing Component Analysis(ICML 2013)を紹介してきました - a lonely miner Vanishing Component Analysis を試作してみました – Tech.D-ITlab | Denso IT Laboratory researcher's blog sites 行けなかった ICML 読み会で紹介されてた Vanishing Component Analysis (Livni+ ICML2013)、うちの社内勉強会でも光成さんが紹介してくれて、ふむふむしていたところに、試作実装がでてきて、おーおもしろいと思ったんだけど、Matlab なので試せない orz というわけで貧乏人の Matlab (失礼) である R で実装してみた。 極力、論文の pseudo code
R が苦手だった理由の一つに,グラフィックが気に食わないということがあったが,それを解消してくれたのが ggplot2 だ.とにかく直感的に利用できるし,統計を扱う者にしっくりくる. ライブラリの読み込み library(ggplot2) 利用できるデータ形式は,data.frame(). 例えばsample.csvをデータとすると [sample.csv] "class","x","y" "1.0","0.535","20.0" "1.0","6.11","15.0" "1.0","430.0","10.0" "2.0","0.487","20.0" "2.0","22.38","15.0" "2.0","698.6","10.0" "3.0","0.401","20.0" "3.0","10.24","15.0" "3.0","446.8","10.0" "4.0","0.227","
ggplot2で描画したグラフをファイルに保存するにはggsave関数を使う. library(ggplot2) p <- qplot(carat, price, data = diamonds, color = clarity) # 描画して確認 print(p) # PNG画像として保存 ggsave(file = "diamonds.png", plot = p) 解像度/画像サイズの指定 画像の解像度やサイズを指定するには,それぞれdpiパラメータ(pixel/inch),widthパラメータ(inch),heightパラメータ(inch)を使う. p <- qplot(carat, price, data = diamonds, color = clarity) ggsave(file = "diamonds.png", plot = p, dpi = 100, width =
今日は初心者向け記事です。 はじめに ある範囲の年齢の小学生32人を無作為に選び、算数のテストを受けてもらい、さらにその身長を測定しました。 身長に対する算数の点数のグラフは次のようになりました。 なんと、身長の高い子供の方が、算数の点数が高いという結果になりました! 身長が算数の能力に関係しているなんて、すごい発見です! しかしながら、結論から言うと、この結果は間違っています。 なぜなら、抽出したのは「ある範囲の年齢の小学生」であり、年齢の高い子も低い子も含まれているからです。 年齢が高いほど算数能力は高くなり、年齢が高いほど身長も高くなることは容易に推測できます。 この関係を図で表すと次のようになります。 つまり、年齢と算数能力に相関があり、年齢と身長にも相関があるため、身長と算数能力にも見かけ上の相関が見えているのです。 このような相関を擬似相関と言います。 統計解析では、このような
はじめに 本研究会は,研究報告の質 (reporting quality) 向上のための統計学の勉強会です。2か月に1度程度,東京都内で開催しています。 臨床疫学系の研究者の多くは,統計学の専門家ではありません。我々は,論文を書くための「道具」として,統計学を使っています。我々が論文を書く際は,より良い研究になるように,「適切」に方法や結果を記述したいと願っています。国際的には,統計手法別に,どういう情報を論文で記述するべきかを規定しているガイドライン (reporting guideline) が数多く公表されています。しかし,我々は,残念ながら,こういったガイドラインの学習にまで,なかなか手を伸ばせないために,「ある統計手法を使ったものの,どのように論文に報告すれば良いかわからない」といった問題によく遭遇していると思います。 こうした問題を解決すべく,本研究会では,「データ解析環境Rを
今回は美しいグラフが手軽に作成できる、グラフィックパッケージを使ってみます。世界銀行のデータや、先日Wikileaksで流出して話題となっているアフガン戦争のデータを使い、可視化のほかデータの正統性の検証も行ってみます。 ggplot2という「デフォルト」グラフィックパッケージ 今回は前回の続きとして、オープン・データをプロットすることをテーマに取り上げます。前回はRの組込みのグラフ描画関数である、plotやts.plotのみを利用しましたが、今回は、外部グラフィックライブラリとして最近非常に注目されているggplot2パッケージを利用します。この連載でも今後、グラフ描画についてはggplot2を利用していく予定です。 また、今回はWebサービスを利用したデータ取得についても取り上げます。 ggplot2は、Rユーザーの間ではデファクトスタンダードのツールとなっているグラフィックパッケージ
4月3日、オープンソースの統計解析ツール「R」開発チームは最新版となる「R 3.0.0」(開発コード「Masked Marvel」)のリリースを発表した。2^31-1以上の要素を持つベクトル(Long Vector)のサポートなどが加わっている。 Rは統計や解析処理、グラフ化のための言語および実行環境。WindowsやMac OS X、Linuxなどで利用できる。GNU Projectの1つで、動的型付け、オブジェクト指向などの特徴を持ち、データの操作、計算、グラフィック表示などの機能も統合されている。拡張性が高く、関連パッケージが豊富に用意されている点も特徴で、パッケージはCRAN(Comprehensive R Archive Network)から入手できる。ライセンスはGPL。 バージョン3.0.0は、2004年に公開されたR 2.0.0以来のメジャーバージョンとなる。大きな変更点と
データマイニングについて勉強する機会があり、Python言語の練習がてら「変化点検出」と呼ばれる手法について、近似的ではありますが、試作してみました。 変化点検出とは 変化点検出とは、入力データの時系列的な振る舞いの変わり目(変化点)を検出する方法です(山西健司著『データマイニングによる異常検知』)。 データマイニングによる異常検知 山西 健司 Rank / Rating: 302282 / - ASIN: 4320018826 Price: ¥ 3,990 A unifying framework for detecting outliers and change points from time series (Google Scholar) DoS攻撃や新種のワームの発生による、急激な値の変わり目(トラフィック量の急増等)を検知するのに有効とされる手法です。 id:yokkun
[This article was first published on Revolutions, and kindly contributed to R-bloggers]. (You can report issue about the content on this page here) Want to share your content on R-bloggers? click here if you have a blog, or here if you don't. A new book by Jeffrey Stanton from Syracuse Iniversity School of Information Studies, An Introduction to Data Science, is now available for free download. Th
cut関数(連続データの離散値化) 連続値をとるデータを適当な区間(breaksで指定)で分割して、factor化してくれる。 > x <- rnorm(10) > x [1] 0.07927061 0.81770466 0.21693545 -0.95629685 1.77248104 -1.29774920 -1.05448409 -0.55145272 2.30786460 [10] -0.74214539 > cut(x, breaks=c(-10,-3,0,3,5,10)) [1] (0,3] (0,3] (0,3] (-3,0] (0,3] (-3,0] (-3,0] (-3,0] (0,3] (-3,0] Levels: (-10,-3] (-3,0] (0,3] (3,5] (5,10] factor型を数値型に変換 factor型は単純にas.numericしても正しい数
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く