整然データとは、1) 個々の変数が1つの列をなす、2) 個々の観測が1つの行をなす、3) 個々の観測の構成単位の類型が1つの表をなす、4) 個々の値が1つのセルをなす、という4つの条件を満たした表型のデータのことであり、構造と意味が合致するという特徴を持つ。R言語などを用いたデータ分析の際には非常に有用な概念である。 はじめに データ分析の際には、データが扱いやすい形式になっている必要がある。データの中身がぐちゃぐちゃになっていたり、データの形式が統一されていなかったりすれば、分析は骨の折れる作業となる。 それでは、どのようなものがデータ分析において扱いやすい形式のデータになるのだろうか。この問題に対する唯一の正しい解答というものは存在しない。しかし、表の形式で表すことができるデータを考える場合、ハドリー・ウィッカム (Hadley Wickham) 氏が提唱した整然データ (tidy d
Chapter 1 Rで遊ぶ 1.1 Rとは 1.2 簡単な計算 1.3 ヘルプと終了 1.4 データの入力 1.5 データフレーム 1.6 ファイルの読み書きと文字コード 1.7 図の描き方 1.8 パッケージの例:Excelファイルを読む Chapter 2 統計の基礎 2.1 尺度水準 2.2 代表値 2.3 確率変数,乱数,母集団,標本 2.4 分散と標準偏差 2.5 中心極限定理と正規分布 2.6 コーシー分布 2.7 正規分布から導かれる分布 Chapter 3 2項分布,検定,信頼区間 3.1 2項分布 3.2 統計的仮説検定の考え方 3.3 統計的仮説検定に関する議論 3.4 多重検定 3.5 信頼区間 3.6 2項分布から正規分布へ 3.7 検定の例:PISAの「盗難事件」問題 3.8 信頼区間の例 3.9 尤度と最尤法 3.10 止め方で結果が変わる? Chapter
「他のスクリプト言語ならそれなりに触れるけど、Rって変な機能が多いから難しい」と感じている人のために、Rの独特な点、ハマりどころ、そして特にデータの集計での強力な機能やパッケージをまとめてみました。 社内のデータリソース移行の作業の中で、前任者が(良い意味でも悪い意味でも)すごいRプログラマーだったのと、DBからのデータの取得からデータの整形・確認が一気に行えるという理由で久しぶりにRを触りました。 (先輩!僕が「%>%ってなんですか?」みたいな質問すると、チャットでgithubのリンクを貼られたり、AdvancedRを薦められたりするの、めっちゃ困りました!) 数年前Rを使っていたときは、 Rのプログラムってよくわからないなあ…、後から自分のコード見ても意味が読み取れないよ… Pythonでpandasとかmatplotlibってパッケージを使えばRっぽいことができるの?じゃあそっち使お
「Rのプログラマーは当たり前に思ってるけど、他の人達にとってはそうじゃないこと」をまとめておいて、 先輩や同僚から「Rって何が便利なの?使って or 勉強して得になるの?」って聞かれたときにパッと答えられるように備えておこうという記事です。 (自分はただのエンジニアだけど)社内でデータ分析者にとって暮らしやすい環境を作りたいと思ってます。 そのために、Rって何なのか、何が便利なのかアピールして、あわよくばRユーザーを増やしたいと目論んでいます。 そういうモチベーションもあり、この間、「ふつうのスクリプト言語プログラマーのためのR言語入門」というめちゃめちゃイケてる記事を書いたのですが、あんまりウケは良さそうじゃありませんでした。おそらく、自社ではエンジニアがデータを分析する文化があまりなく、主に企画やマーケッターと呼ばれる人達がExcelとかで一生懸命やっているためです。 kiito.ha
同僚のRプログラマーにおすすめのRの本は無いかと聞いたところ、 「新米探偵データ分析本→実務→(みんなのR→)advanced R」の順番に学ぶといいと聞き、新米探偵本を借りて読んでいます。 新米探偵、データ分析に挑む 作者: 石田基広,shimano出版社/メーカー: SBクリエイティブ発売日: 2015/10/28メディア: 単行本この商品を含むブログ (4件) を見る 最初にざっと目を通しただけですが、商店街に起こる事件を基に、 平均値のシミュレーション 回帰分析 ロジスティック回帰 テキストマイニング 時系列分析 などなど、いろんな分析のエッセンスや注意点が学べる本だという気がしています。 「こういうときに主成分分析を使う」「こういうときに自己相関グラフを使う」など、基本的な分析手法やグラフの使いどころを学ぶことができるような気がします。私のように、Rのプログラミングは慣れてきたけ
次回のTokyo.Rの開催が近づいてきたので、前回の復習を兼ねてRで回帰分析をやってみます。 今回は最も単純な線形単回帰分析を行います。 回帰分析の流れ 回帰式を求める意義があるか検討する(説明変数と目的変数のグラフを作成する等) 回帰式を求める 回帰式の精度を確認する 回帰係数の検定を行う 信頼区間と予測区間を求める 回帰式を求める意義があるか検討 無相関なデータに対しても、数学的には回帰式が求められるため、検討しておくことは重要です。 データはマンガでわかる統計学 回帰分析編のデータを使用してみます。 ある喫茶店のアイスティーの売り上げとその日の最高気温についてのデータです。 > norns temperture icetea 8/22 29 77 8/23 28 62 8/24 34 93 8/25 31 84 8/26 25 59 8/27 29 64 8/28 32 80 8/2
Bluehost - Top rated web hosting provider - Free 1 click installs For blogs, shopping carts, and more. Get a free domain name, real NON-outsourced 24/7 support, and superior speed. web hosting provider php hosting cheap web hosting, Web hosting, domain names, front page hosting, email hosting. We offer affordable hosting, web hosting provider business web hosting, ecommerce hosting, unix hosting.
ビッグニュースです。 統計言語 R の業界において神とあがめられているハドリー・ウィッカム。 彼は ggplot2 や dplyr などの数々の超便利パッケージを作成したことで知られていますが、その R に対する深い知識をもとに書かれた "Advanced R" という名著を昨年秋に出版しました。 Advanced R (Chapman & Hall/CRC The R Series) 作者: Hadley Wickham出版社/メーカー: Routledge発売日: 2014/10/28メディア: ペーパーバックこの商品を含むブログを見る 本書は、これまで複雑でわかりにくいとされてきた R 言語を、エッセンスにしぼり、体系的にここまで綺麗にまとめることができたのかと、思わずうなるほどの出来で、アメリカ Amazon で星 4.8 という超高評価をつけられている名著です。 この本の日本語訳
主観的な観点からPythonとRの比較した記事は山ほどあります。それらに私たちの意見を追加する形でこの記事を書きますが、今回はこの2つの言語をより客観的な目線で見ていきたいと思います。PythonとRを比較をしていき、同じ結果を引き出すためにはそれぞれどんなコードが必要なのかを提示していきます。こうすることで、推測ではなく、それぞれの言語の強みと弱みの両者をしっかりと理解できます。 Dataquest では、PythonとRの両方の言語のレッスンを行っていますが、データサイエンスのツールキットの中では両者ともそれぞれに適所があります。 この記事では、NBA選手の2013/2014年シーズンの活躍を分析したデータセットを解析していきます。ファイルは ここ からダウンロードしてください。解析はまずPythonとRのコードを示してから、その後に2つの異なるアプローチを解説し議論していきます。つま
戦略的データマイニング (シリーズ Useful R 4) 作者: 里洋平,金明哲出版社/メーカー: 共立出版発売日: 2014/08/23メディア: 単行本この商品を含むブログを見る 金融データ解析の基礎 (シリーズ Useful R 8) 作者: 高柳慎一,井口亮,水木栄,金明哲出版社/メーカー: 共立出版発売日: 2014/08/09メディア: 単行本この商品を含むブログ (1件) を見る 著者の@yokkunsこと里さんと高柳さんからご恵贈いただきました! ということで簡単にできるだけ辛口ではない書評を書いておきます*1。皆さんの参考になれば嬉しいです*2。 『戦略的データマイニング』 内容:☆☆☆☆☆(非公開) オススメ度:☆☆☆☆☆(非公開) タイトルと著者が@yokkuns氏であるという点からも想像がつくように、具体的にビジネス的なテーマがある時にどんなデータ分析手法をどのよ
第42回Tokyo.Rを開催しました! https://atnd.org/events/54680 今回は、いつもと違って、Y!Jのでの開催で、 株式会社Qubital(キュービタル)データサイエンスさんの社員の方々がスタッフをやってくださいました。 ありがとうございます!! 前半セッション R入門(dplyrでデータ加工):@gepuro R入門(dplyrでデータ加工)-TokyoR42 from Atsushi Hayakawa ggplot2によるデータ可視化:@yokkuns Tokyor42 ggplot2 from Yohei Sato Rコードと実行結果:http://rpubs.com/yokkuns/27108 データ分析するときの4つの視点:@yokkuns Tokyor42_r_datamining_18 from Yohei Sato Rコードと実行結果:http
相関のある多変量データで距離を測る場合、我々が通常「距離」と呼ぶユークリッド距離よりも、マハラノビス距離の方が都合がよい。多変量データを変数ごとに標準化してユークリッド距離をとる場合は標準化により変数間の関係性が変わる上に相関関係は考慮されないが、マハラノビス距離を使えば変数間の相関関係も考慮した多変量標準化尺度として使用できる。Rでのデモつき。 このメモでは、説明のために、比較的きれいなデータを用いて、距離の大きさで便宜上外れ値を判定してはいるが、ロバスト性のない平均値ベクトルや共分散行列から計算されるマハラノビス距離はやはり全くロバスト性をもたないため、外れ値検出の目的で使用してはいけない。逆に言えば、マハラノビス距離を用いて外れ値検出を行うためには、平均値ベクトルと共分散行列の代わりに、ロバスト推計した位置と尺度指標を用いれば良い。 Read less
はじめに † ここでは、『Rによるバイオインフォマティクスデータ解析』の7.17節「LASSO」を参考にして、回帰分析をします。 きちんと理解するために、まずは単回帰と重回帰という2種類の線形回帰をやり、その後にLasso回帰とRidge回帰をやります。 その後、多項回帰と二項回帰をやります。 ↑ 準備 † Rのインストールについては、次のページを見てください。 MacでRを使う WindowsでRを使う 最初は、標準で使用できるirisデータセットを使います。 data(iris) このデータセットは、アヤメの種類(Species)をがく片の長さ(Sepal.Length)、幅(Lepal.Width)、花びらの長さ(Petal.Length)、幅(Petal.Width)によって分類する問題です。 長さと幅は連続値、種類はsetosa, versicolor, virginicaのいず
(※はてなフォトライフの不具合で正しくない順番で画像が表示されている可能性があります) だいぶ前に「糞コードで頑張る機械学習シリーズ」と言うのを始めようとしたんですが、パーセプトロンをPythonで実装した次にMatlabで書いたSMO-SVMコードをPythonに移植しようと思っているうちに時間が過ぎ。。。 あまつさえ転職したら、今の現場にはライブラリ皆無でほぼ全ての機械学習のコードをPython / Java / C++のどれでも書ける化け物^H^H「教授」がいてそんなこと僕がやる必要性は完全になくなってしまったのでした(笑)。 ということで、カテゴリ名はそのまま*1ながら方向性を変えて、僕のようなパッケージやライブラリに依存するユーザーが機械学習を実践する際に原理上のどのような点に気を付けて実装・実践すべきかを、僕自身の備忘録のためにだらだらと書いていくシリーズにしてみようと思います
はじめに † 『Rによるバイオインフォマティクスデータ解析』の7.9.1節「[math]k[/math]-menas」を参考にして,[math]k[/math]平均法を行います. ↑ 準備 † Rのインストールについては,次のページを見てください. MacでRを使う WindowsでRを使う まず,[math](1, 1)[/math] を中心として,[math]x[/math]座標と[math]y[/math]座標をそれぞれ分散0.3として正規分布で100個の点を生成し,これをc1とします. 次に,[math](-1 -1)[/math] を中心として,同じように分散0.3の正規分布で100個の点を生成し,これをc2とします. c1とc2をまとめて,dataとし,これをプロットします. set.seed(123) x1 = rnorm(100, mean=1, sd=0.3) y1 =
4/17(土)の第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3)での私の一つ目のトーク「1. R言語による クラスター分析 - 活用編 (60分)」の一部関連内容です。当日は、全体像も含め分かる形の講義資料で話します。 当日、USTREAM配信も行う予定ですので、興味のある方はぜひご覧下さい。 第3回 データマイニング+WEB 勉強会@東京 (Tokyo.Webmining#3) : ATND ※内容記述に関して粗い部分も、追って洗練します。 k-means k-meansは、クラスター分析の非階層的手法で代表的な手法。 現実のクラスタリングでもk-meansが使われることが多く、実用的な手法。 ※階層的手法の対極にある「非階層的手法」(分割最適化手法とも呼ばれる)。詳細は次エントリを参照:「はじめてでもわかる R言語によるクラスター分析」 ※アルゴリ
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く