14. 何はともあれ可視化しておく 14 Ozone50 100 150 0 50 100 150 Cor : 0.348 5: 0.243 6: 0.718 7: 0.429 8: 0.53 9: 0.18 Cor : -0.612 5: -0.451 6: 0.357 7: -0.667 8: -0.74 9: -0.61 Cor : 0.699 5: 0.613 6: 0.668 7: 0.723 8: 0.605 9: 0.828 Solar.R100 200 300 0 100 200 300 Cor : -0.127 5: -0.217 6: 0.612 7: -0.234 8: -0.188 9: -0.0939 Cor : 0.294 5: 0.482 6: 0.647 7: 0.331 8: 0.457 9: 0.123 Wind10 15 20 5 10 15 20 C
最近、「ビッグデータ」というバズワードに対するアンチテーゼとして叫ばれるようになってきたのが、 「統計学ってのは限られたサンプル(抽出)データから、まだ見ぬ全体像を知るためのもの」「だからビッグデータなんて苦労して集める必要はない、サンプリングされたデータだけで十分だ」 という主張。えーと、半分はその通りだと思います。けれども、半分はそうでもないかなぁ、と。 何故なら、レコメンダーとかSPAMフィルタなどのバックエンドシステム開発では、できれば全数データを使って可能な限り精度を上げ続けた方が良いものが多いからです。だからHadoop以下大規模分散処理などの高度な手法を沢山駆使しているわけで、そこでは依然として全数データは非常に重要です。 一方、マーケティングなどでオフライン&アドホックで分析する際には、そこまでやらんでもええやん的な状況は多くあります。手動でデータ分析したいんだけど、全数デ
RStudio works with the manipulate package to add interactive capabilities to standard R plots. This is accomplished by binding plot inputs to custom controls rather than static hard-coded values. Basic Usage The manipulate function accepts a plotting expression and a set of controls (e.g. slider, picker, or checkbox) which are used to dynamically change values within the expression. When a value i
5. 例えば, いつもよく出てくるirisデータセット > head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa アヤメの茎の⻑さ・幅と種類に関するデータ 4 8. そんなデータフレームも, 結構処理が遅いことがある > # データの読み込み > system.time(usc.df <read.csv("../data/USCensus1990.data.txt")) ユーザ システム 経過 65.588 3.
変数の要約をして,だいたいの概要を把握するときって,だいたいboxplotとかみてこんなもんかーって思って,あとは相関表をだして眺めるみたいなことをよくやったりするんですけど,これが案外面倒なので,もう少し楽にできないかなって思ってました.特に相関の部分. そうしたらTokyo.R 33の@teramonagiさんのLTで紹介されていたパッケージが超便利そうだったので試してみました.パッケージ名は{PerformanceAnalytics}でメソッドはchart.Correlation().インストールしてaircalityデータで試してみましょう. install.packages("PerformanceAnalytics") library("PerformanceAnalytics") chart.Correlation(airquality) そうしたら,以下のような散布図と回帰
元ネタのブログは「10 R packages every data scientist should know about」と「10 R packages I wish I knew about earlier」です。紹介されているパッケージはどれも良いのでメモしておきます。私が「取得した方がいいだろうなー」と思う順番に並べ替えてます。サンプルコードは後者の記事に載ってます。 randomForest:超強力な汎用予測モデル RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの接続 plyr:データ集約 reshape2:データ加工 forecast:時系列予測 stringr:文字列操作 lubridate:日付操作 sqldf:SQLライクなデータ操作 ggplot2:綺麗なプロットを描く qcc:品質管理 個人的には、下の3つは
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く