Overcome complex cloud challenges and build cloud talent from within
はじめに R advent calendar 2014, 12月3日担当分です. Rのコードは出てきません. 野球のデータで遊びたい 私は普段, メジャーリーグのデータで遊んでいます. というのも, 整形されたメジャーリーグの詳細なデータが簡単に取得できるからです. 半年前に作ったスライドで申し訳ないのですが, こんな感じです. Rで野球データ解析がしたい ( pitchRxを使う ) from Takuma Hatano Rで野球データ解析がしたい ( pitchRxを使う ) pitchFxは, メジャーリーグの投球に関するデータ(を集めるシステム)です. RでpitchRxパッケージを使うと簡単に取得できます. 他にも, メジャーリーグのデータは簡単に取得できます. retrosheetという団体がデータをまとめてくれているので, ダウンロードして整形してcsvを出力してくれるスクリ
はじめに 前回, 大相撲のデータを正しく作るのが辛い, ということを書きました. Rでスポーツデータ解析がしたい: データを作るのって大変ですね - 300億円欲しい まだ整形できていないのですが, 現段階で可能な解析をしたいと思います. 八百長問題が気になりますので, 千秋楽の勝率を集計してみます. 先行研究 大相撲のアノーマリー. 2010年に書かれた記事です. 八百長がありそうかどうか, という解析です. 実践! Rで学ぶ統計解析の基礎(8):大相撲のアノーマリー (2) (2/2) - @IT もしも、この計算の追試や、何らかの追加計算をされた方がいらっしゃったら、是非ともその結果を教えてくださることを熱望します。 また、1999年以前10年間程度の十両・幕内の勝敗データを持っていらっしゃる方がおりましたら、そのデータを提供いただければ、より一層踏み込んだことが分析できると思います
追記(2015/03/14) 第7章の決定木のところで取り上げた{mvpart}パッケージのサポートが切れ、CRANから削除されてしまったためinstall.packages関数ではインストールできなくなっています。現在のインストール方法を最後に追記しました。 追記(2014/09/18) 実はGoogleブックスで立ち読み可能です 拙著公式サポートページと相互リンクしています。サンプルデータと正誤表はこちらをご参照ください ということで、以下の通り拙著『手を動かしながら学ぶ ビジネスに活かすデータマイニング』(技術評論社)が本日発売と相成りました(都内の大型書店では先週半ばから先行販売している模様です)。 手を動かしながら学ぶ ビジネスに活かすデータマイニング 作者: 尾崎隆出版社/メーカー: 技術評論社発売日: 2014/08/22メディア: 単行本(ソフトカバー)この商品を含むブログ
ここ数年、私はデータサイエンスについて学んでいます。おすすめの学習資料を紹介したいと思います。 教師用の教科書と初心者用の教科書 私自身、データサイエンスを学ぼうとして色々なソースを試してみました。残念なことに、日本語の良い学習資料は見つけられませんでした。どこかのブログで読んだことがありますが、教科書は教師用と学生用の二週類があるそうです。一つめは内容が既に分かっている教師の為の教科書で、日本はこのタイプです。もう一つのタイプの教科書は自学自習を目的に作られているので、教師なしで学ぶできる教科書になっているということで、アメリカはこのタイプの教科書が多いです。私自身、他の文系・理系の教科書を探した時もアメリカの教科書の方が分かりやすく、その本だけを読めば分かるようになっていると同じ印象を持ちました。 オンライン教育(MOOC) アメリカは科学教育に熱心であり、最近はやりのMOOCでも豊富
連載バックナンバー はじめに 今回は時系列分析について紹介します。ビジネスで生成されるデータの多くが“時間“の項目を含む時系列データで、1週間の傾向や季節変動などを分析する際など、さまざまな場面で時系列の分析が必要となります。 時系列分析(Time Series Analysis)とは? 時系列分析(Time Series Analysis)は、株価や為替レートなど金融関連の時間とともに変化するデータを分析し予測するために発達してきました。「時系列計量経済学(Time Series Econometrics)」などの学問の中で論じられているデータ分析の中では、比較的歴史のあるテーマです。それだけに、定式化するためのさまざまなモデルが提案されていて、1つの変量を分析するためのモデルだけでも、表1のように多くのモデルがあります。 略称 説明 AR
一般に、データ分析の大半はそれほど高度なテクニックの類を必要としないものです。僕も常日頃から口に出して言うことが多いんですが、「統計学だの機械学習だのの出番なんてそもそも少なくて当たり前」。工数もかかるし、できればやらない方が良いです。ぶっちゃけ単純な四則演算で十分なケースの方が多数派でしょう。 なので、普段はDB上でSQL(というかHiveなど)でサクッと四則演算だけで集計処理を済ませてしまって、その結果だけを表示するようにしておいた方が圧倒的に楽で手っ取り早いはず。多くのBIツールもそういう考えのもとで作られていると思います。 ところがどっこい。世の中には、単純な四則演算での集計結果と、データサイエンスを駆使した分析結果とで、食い違ってしまうケースが何故かあることが知られています。どちらかと言うとレアケースだとは思いますが、その矛盾をおざなりにするととんでもないことになることも多々あり
はじめに 統計解析の手法を学ぶのに、教科書を読むのは素晴らしい学習方法です。 しかし、教科書で理論的なことを学んだだけでは、統計手法を使いこなせるようにはなりません。 統計解析手法を身につけるには、実際のデータについて手法を適用し、パラメータを変えるなどの試行錯誤を行い、結果を考察するというような経験を積むことが大切です。 それでは実際のデータをどうやって手に入れましょうか? 実験や調査をして実際のデータを得るのは大変でお金もかかります。 幸運なことに、世の中には適度なサイズの自由に使えるデータがたくさん存在します。 例えば、統計言語 R には、100以上ものデータセットがデフォルトで付属しています。 ただし、不幸なことに、それらのほとんどは英語で説明が書かれています。 英語は、いつかは乗り越えなければならない壁ですが、最初のうちはちょっと避けて通りたいところです。 というわけで、今日は、
あけましておめでとうございます。 本年もよろしくお願いいたします。 主成分分析 さて、昨年の終わりごろから、私は仕事で主成分分析を行っています。 主成分分析というのは、多次元のデータを情報量をなるべく落とさずに低次元に要約する手法のことです。 主成分分析は統計言語 R で簡単にできます。 例として iris データで実行してみましょう。 data(iris) data <- iris[1:4] prcomp.obj <- prcomp(data, scale=TRUE) # 主成分分析 pc1 <- prcomp.obj$x[,1] # 第一主成分得点 pc2 <- prcomp.obj$x[,2] # 第二主成分得点 label <- as.factor(iris[,5]) # 分類ラベル percent <- summary(prcomp.obj)$importance[3,2] *
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く