サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
アメリカ大統領選
iisssseeiiii.hatenablog.com
バージョンアップで昔の指定方法ができなくなってた。 調べたら下記のようにやれば描ける。ggplot2は綺麗なんだけど仕様変更が多いから困る。 binomial_smooth <- function(...) { geom_smooth(method = "glm", method.args = list(family = "binomial"), ...) } ggplot(data, aes(x, y)) + geom_point() + binomial_smooth()
日経ビッグデータから出版されました『実践!”超”分析の教科書』の監修と執筆をしました。この本は、「分析はスゴいって騒がれてるけど、自分には難しそう。でも興味はある」と思っているような初心者のために、分析って何なのか分かりやすく伝えたいという思いで、監修・執筆しました。 “超"分析の教科書 (日経BPムック) 作者: 日経ビッグデータ出版社/メーカー: 日経BP社発売日: 2014/11/17メディア: 単行本この商品を含むブログ (2件) を見る 自分が担当したのはケーススタディとキーワード解説の部分です。分量でいうと本の約半分くらいです。あと、最初のインタビューにも出ています。 ケーススタディはまず、私がiAnalysis(アイアナリシス)社で3年間コンサルをしてきて、ビジネスに効果が出た分析方法だけをピックアップしました。毎日ビッグデータとかアナリティクスとか騒がれてますが、「結局どん
マレーシア航空のいろんな話題が飛び交っている中、Twitterで「【助けて】全世界のインターネットユーザーに協力を呼びかけ! この写真から「消息を絶ったマレーシア航空の旅客機」を見つけてください」という記事を見つけました。 衛星写真の画像が大量にあるので、人海戦術で破片を見つけよう、という趣旨です。私は分析屋なので、データサイエンスを使って手助けできないか?と思い、少し分析してみました。何かの一助になればと思い、ブログで公開します。 データサイエンスを利用するには、まずデータが必要です。衛星画像はこのサイトにあります。 そのサイトから、まずは特徴的な画像を拾ってきて、分析してみます。サイトを見てみると、画像はだいたい3つのパターンに分かれているようでした。 雲の画像 海の画像 何かの物体の画像 3つ目の”何かの物体”を画像から判定できれば、それが旅客機かもしれません。分析のロジックを作るた
Rでリスクマップなんかを作りたいとき、(頑張れば)地図を描くことができます。 だけどRの地図関連は更新が激しくて、以前使えた関数が使えなくなることが多いです。 RjpwikiにはここでRmapパッケージが紹介されていますが、今は使えません。 なので去年の12月にmaptoolsパッケージでプログラムを作っていたのですが、今回実行してみたら、なんと使えなくなっていました(ショック!><)。 また試行錯誤して関数を見つけたところ、spsurveyパッケージを使うと何とか実行出来ました。 ですが地図を描く場合は、まずshpファイル(シェープファイル)が必要になります。 これは日本のGISのページからダウンロードできます(私が以前ダウンロードしたときとURLが変わったようですので、申し訳ないですが詳細URLは探してくださいorz)。 頑張ってプログラムが実行できれば、このような地図が描けます。 シ
これまで統計学を学んできて、最低限必要だろうなと思う用語のリストです。どれも説明が難しいので、そのうちうまく説明できればいいです。 母集団 確率 頻度論 ベイズ・ベイジアン 検定 P値 信頼区間 αエラー βエラー サンプルサイズ 大数の法則 中心極限定理 標準誤差 尤度 ランダム化 バイアス ランダムサンプリング
このブログのTips052で、RでDeep Learningをやっているのを紹介してもらったので、自分も試してみました。 「Deep Learningすげぇ!!」という話は良く聞くのですが、亜種がいっぱいあるみたいで、まだあまり調査しきれてません。また時間があれば調査してまとめられると良いのですが。 以下、RでDA(Denoising Autoencoders)を実行するプログラムです。 sigmoid <- function(x){ return (1 / (1 + exp(-x))) } dA <- setRefClass( Class="dA", fields=list(input="matrix", n_visible="numeric", n_hidden="numeric", W="matrix", W.prime="matrix", hbias="vector", vbias
元ネタのブログは「10 R packages every data scientist should know about」と「10 R packages I wish I knew about earlier」です。紹介されているパッケージはどれも良いのでメモしておきます。私が「取得した方がいいだろうなー」と思う順番に並べ替えてます。サンプルコードは後者の記事に載ってます。 randomForest:超強力な汎用予測モデル RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの接続 plyr:データ集約 reshape2:データ加工 forecast:時系列予測 stringr:文字列操作 lubridate:日付操作 sqldf:SQLライクなデータ操作 ggplot2:綺麗なプロットを描く qcc:品質管理 個人的には、下の3つは
『今日から始まるデータサイエンティスト』という2部構成のセッションのうち、前半の『活躍するデータサイエンティストの人材像』の進行を行なってきました。みなさま第一線で活躍されている方ばかりで、進行をさせて頂くのが恐縮でしたが。。準備も突貫で行ったのですが、みなさまのお陰で無事に実施できました! 進行を行なっていたのでメモを取れなかったのですが、とりいそぎ流れを記録しておきます(あとで覚えている範囲で追記していければ)。 【進行】 倉橋一成(iAnalysis合同会社代表・CAO) 【パネリスト】 草野隆史(株式会社ブレインパッド社長) 益村勝将(トランスコスモス・アナリティクス株式会社COO) 佐々木智之(株式会社gumi執行役員) 西郷彰(株式会社リクルートテクノロジーズ) 【内容】 ・オーガナイザーの里洋平氏(株式会社ディー・エヌ・エー)より前座トーク ・各自自己紹介 ・分析系の職種を選
先日より、リクルート様のITエンジニアのための実務スキル評価サービス「CodeIQ」で、データサイエンティストに関する問題を出題させて頂いております(問題集はこちら)。先日12/12のおしゃスタ@リクルートでも少し解説しましたが、Rでの解答例をお見せする時間がなかったので、この機会にブログで公開します(おしゃスタに関するCodeIQ様のブログはこちら)。去年に引き続き勢いだけで参加したR Advent Calendar 2012でしたが、ちゃんとネタが見つかって良かった!!!でも無計画に参加したらクリスマスイブの日に当たってしまったので、、、日付が変わるくらいにさっさと書いてしまいたいと思います!!!爆 【データサイエンティスト初級問題】 【前提】 とある転職サイトから、「とりあえずデータがあるんだけど、、、」と言われてデータを受け取りました。先方は何をして欲しいかまだはっきりと決まってな
「意思決定のためのデータマイニング」という以下の本から、データマイニングに関する8つの誤解についての抜粋です。 Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics) 作者: Stéphane Tufféry出版社/メーカー: Wiley発売日: 2011/04/18メディア: ハードカバー購入: 15人 クリック: 478回この商品を含むブログ (2件) を見る よく質問されることも含まれてます。”誤解”なので、そうではないですよ、ということがタイトルになってます。 1. 事前の知識は必要ない⇒事前知識は必要 データマイニングする際には分析対象のデータに関する事前知識は必要です。特に変数が表す意味や、どういう経緯でデータが入手されているかなど、業務知識は重要です。
Rの場合SASと違って一連の解析がひとまとめになっていないため、いろんなパッケージを探してやりたい事を見つけなければいけない。 例えばロジスティック回帰を当てはめたときのROC曲線を確認したい時は、Epiライブライブラリなどを使う。 ROCの曲線下面積、AUCの信頼区間はDiagnosisMedライブラリで出来る。 ただ正解、不正解を示すベクトルを作る必要があるみたい。 SASだとVer9.2からAUCの検定が出来るようになったよう(proc logisticのcontrastステートメントだったと思う)。 ちなみにロジスティック回帰は以下のように行う。 glm(y~x + z, family="binomial") またggplot2を使えばロジスティック曲線の当てはめもできる。 コードはこちら↓ library(Epi) #ロジスティックモデルでROCを描く library(Diagn
HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時
私はRからプログラミングに入って分析もRでやってるわけですが、ちょっと大きめのデータになるとRでは扱うのが難しくなります。そこで前々からPythonに手を出そうとしていたのですが、なかなかインストールがうまく行きませんでした。しかし、ようやくPython環境を整えることが出来たので、メモしておきます(@teikawさんにいろいろ教えてもらいました)。 Pythonのインストールは良く使われるパッケージが入っている、enthoughtやpythonxyで行うのが良いです。自分は前者のアカデミック版をインストールしました。インストールした後、環境変数の設定が必要かもしれません(以前にPython単体でインストールしたときに環境変数は設定していました)。 機械学習を実行するにあたって、今一番アツそうなのがscikits.learnというライブラリです。これはGoogle summer codeが
2012年3月12日、計算機科学分野の権威ある賞、チューリング賞(wikiはこちら)をJudea Pearl先生が受賞されました(米記事はこちら、日本記事はこちら)。Pearl先生は「因果推論」分野の権威です。因果推論はベイジアンネットワークや構造方程式モデリング(SEM、パス解析)などの基本理論になります。チューリング賞が出たこともあって因果推論が注目されそうですが、難易度が高い分野でもあります。そこで、私が読んで理解が進んだ本を紹介致します。 まずは、このエッセイ本を読むと「因果関係とは何か?」「効果とは何か?」といった事をとてもイメージしやすくなります。これは医療統計分野の本なので、「ランダム化試験」という用語で因果関係を説明していますが、web業界の方はA/Bテストと言った方が分かりやすいかもしれません。A/Bテストをすることでレイアウトの良し悪しが判明するのも、基礎には因果推論の
久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行本購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R本 Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行本購入: 64人 クリック: 782回この商品を含
今回は集団学習(アンサンブル学習)で良く出てくる、バッギング、ランダムフォレスト、ブースティングについてメモしておきます。参考にしている教科書はこちらです。貼りつけている数式もこの教科書から抜粋しています。 The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics) 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman出版社/メーカー: Springer発売日: 2008/12/01メディア: ハードカバー購入: 1人 クリック: 222回この商品を含むブログ (16件) を見る どの手法も、「弱い学習器」をたくさん集めて良い予測値を得ることを目指してい
もう今年も終わりですね。今日はクリスマスというのに何をしてるのやら、、、とか思いつつ記事を書いてます。1年の大掃除の意味も込めて、今年いろんな人に紹介してきた本やサイトをまとめておこうかなと思います。 まずは定番の2冊。「機械学習」「統計的学習」と名前は分かれていますが、同じ手法を視点を変えて説明しているような感じです。 PRLM(機械学習、一部PDFあり) Hastie本(統計的学習、PDFあり) 機械学習をいきなり英語で本格的に学ぶのがキツい場合は、これらの本やサイトが網羅的なのでオススメです。 多変量解析入門――線形から非線形へ 作者: 小西貞則出版社/メーカー: 岩波書店発売日: 2010/01/27メディア: 単行本(ソフトカバー)購入: 14人 クリック: 347回この商品を含むブログ (9件) を見る 機械学習 はじめよう(記事へのリンク) 英語の初級本は「おしゃスタ」勉強会
データが多くなってくると散布図が真っ黒になってしまうので、濃淡を付けることでどこに集中しているかが分かります。マイクロアレイ系でよく使われる Bioconductorというプロジェクトのパッケージを使うので、通常のパッケージをインストール方法が違います。 インストール source("http://www.bioconductor.org/biocLite.R") biocLite("prada") プログラム例 library(prada) n <- 10000 x1 <- matrix(rnorm(n), ncol=2) x2 <- matrix(rnorm(n, mean=3, sd=1.5), ncol=2) x <- rbind(x1,x2) smoothScatter(x) pairs(iris, panel = function(...) smoothScatter(...,
2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C
今回はLASSOとリッジ回帰についてです。 パッケージは「glmnet」、「lars」、「lasso2」で実行できます。 glmnetとlarsの作者はFriedman、Hastie、Efron、Tibshiraniと有名な先生ですが、lasso2の作者は知らないです。。 内容もほぼ一緒なので、LASSOをするときはglmnet一択で良いと思います。 まずは使用例から。。。 データはLARSパッケージにあるdiabetesを使います。 このデータである結果変数y(中性脂肪?)をx(性別や血圧など)によって予測するモデルを作ります。 まずは単純な線形回帰をします。 library(lars) library(glmnet) data(diabetes) Linear <- lm(diabetes$y ~ diabetes$x) Linear$coefficients これが推定結果です。 (
『パターン認識と機械学習(略称:PRML、ぷるむる)』の勉強会を行っています。 パターン認識と機械学習 上 - ベイズ理論による統計的予測 作者: C. M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇出版社/メーカー: シュプリンガー・ジャパン株式会社発売日: 2007/12/10メディア: 単行本購入: 18人 クリック: 1,588回この商品を含むブログ (111件) を見る とはいっても、いきなりPRMLから読み出すのはキツいですので、まずは鹿島先生の学部3年生向けの講義資料に沿う形で、「プレ」勉強会を行いました(勉強会の案内はこちらのFacebookページで)。 第一回は概論1〜3だったのですが、20:00くらいから始めて3時間くらいかかってしまいましたorz 先生の資料を読みながら、引っかかるところを議論・説明するという形で進めると、「尤度」とか基本的な概念をどう
ツイッターで統計学の読み物を教えて欲しいと言われましたので、今まで眺めてきた本の中から3冊紹介したいと思います。 読み物 統計学を拓いた異才たち―経験則から科学へ進展した一世紀 作者: デイヴィッドサルツブルグ,David S. Salsburg,竹内惠行,熊谷悦生出版社/メーカー: 日本経済新聞社発売日: 2006/03/20メディア: 単行本購入: 28人 クリック: 366回この商品を含むブログ (90件) を見る 過去の統計家の偉人達のエピソードをまとめた本です。最も多く利用されるt検定がどうやって産まれたかとかいろいろ書いてあります。 その数学が戦略を決める (文春文庫) 作者: イアンエアーズ,Ian Ayres,山形浩生出版社/メーカー: 文藝春秋発売日: 2010/06/10メディア: 文庫購入: 34人 クリック: 303回この商品を含むブログ (76件) を見る 古典的
ふと自作パッケージを作りたい!!と思って挑戦し、なんとか調べながら作成することが出来ました。 R中級者になると自作関数も増えてきて、投稿目的でなくてもパッケージ管理したくなると思います。 パッケージ作成の大きな流れはこんな感じ 自作関数&データをRコンソールに読み込む package.skeleton関数でパッケージのひな型を作る 説明ファイルの修正をする(DESCRIPTIONファイル、.rdファイル) コマンドプロンプトかターミナルでチェックとビルドを行う 紹介しているブログはいくつかありましたが、自分がネットで探してもよくわからなかった部分を本ブログで紹介します。 結論的には、少しCMDが使えれば自作のパッケージは作れます。 何段階か壁があると思いますが、多くの人がつまづくのは以下の点だと思う。 package.skeleton関数が上手くいかない description、rdファイ
主成分分析とか因子分析とかの手法は特異値分解系でまとめられますが、調べてみると意外に良い資料がなくてなかなか理解が進まないですorz しかしとりあえず調べれる範囲で理解した部分を記事にしておきます。 教科書はこちら。私が学部4年のときに読んだ本で、自分にとっては一番分かり易く書かれています。しかし絶版orz 多次元データの解析 (シリーズ入門統計的方法 3) 作者: 鷲尾泰俊,大橋靖雄出版社/メーカー: 岩波書店発売日: 1989/02/21メディア: 単行本購入: 2人 クリック: 76回この商品を含むブログ (1件) を見る ※以下記事ですが、まだ曖昧な部分も多いです。間違いがあればご指摘して下されば幸いです。「コレスポンデンス分析」と「多次元尺度法」はもう少し理解を深めるために、別途調査する予定です。 【特異値分解・固有値分解って?】 特異値分解 行列Aを次のように分解する。 A=U
Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。 ・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R本体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる(どっちでもいいw) Rjpwiki 日本語で書かれている、これまでのRに関する資料の集大成 データの加工技、
今回はweb業界でよく行われているA/Bテストについて記事にします。 参考書はこれです。参考にはしましたが、A/Bテストについては1ページくらいしか書いてありませんのであしからず。 PROFESSIONAL アクセス解析 作者: 衣袋宏美出版社/メーカー: 技術評論社発売日: 2011/04/13メディア: 大型本購入: 4人 クリック: 418回この商品を含むブログ (5件) を見る ※今回はサイトのレイアウトと言う意味の「デザイン」とランダム化比較試験の「デザイン」の両方が出てきますが、混乱されないようお気を付け下さい。。。 Google Website Optimizerで、サイトの最適デザインを調べることができます。A/BテストはデザインAまたはBのサイトをランダムに表示し、どちらのサイトデザインが「統計的に有意」であるかを検定するサービスのようです。多変量テストの場合はサイトデザ
ヒートマップは変数や観測値の関係を同時に可視化できる優れた方法。 クラスタリングをして距離の近い(関連の強い)変数、観測値を並べ替えてくれるので直感的に把握しやすい。 ヒートマップでデータを観たあと、クラスタリング・予測に繋いでいくこともできる。 ヒートマップとクラスタリングは標準化した後と前で結果が変わるので注意(俺もプログラム間違えてたw)。 コードはこちら↓ #---written by Issei---# #------ダミーデータ set.seed(1) norm <- rnorm(200) Data <- matrix(c(norm[1:50]+4, norm[51:100]+2, norm[101:150]-2, norm[151:200]-4), nrow=20, ncol=10, byrow=T) Data[, 6:10] <- -Data[, 6:10] DataSca
association analysisは「連関分析」とか「関連分析」とか言われるけど、ややこしいので「アソシエーション分析」と呼ぶことにします。 資料 http://www.jstatsoft.org/v14/i15/paper http://delivery.acm.org/10.1145/2030000/2021064/p2021-hahsler.pdf?ip=133.11.102.2&CFID=39024087&CFTOKEN=44998162&__acm__=1315552947_7145b4aa73b6026288dccbd78c9acae1 http://code.google.com/p/rattle/source/browse/trunk/src/pmml.arules.R?spec=svn660&r=647 プログラムと結果 library("arules") libr
教科書 The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics) 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman出版社/メーカー: Springer発売日: 2008/12/01メディア: ハードカバー購入: 1人 クリック: 222回この商品を含むブログ (16件) を見る Classification and Regression Trees (Wadsworth Statistics/Probability) 作者: Leo Breiman,Jerome Friedman,Charles J. Stone,R.A. Olshen出版社/メー
次のページ
このページを最初にブックマークしてみませんか?
『データサイエンティスト上がりのDX参謀・起業家』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く