サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
GWの過ごし方
iisssseeiiii.hatenablog.com
googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系の本は最近増えてきましたが、統計学自体が基礎から学べる本はまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =
2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C
久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行本購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R本 Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行本購入: 64人 クリック: 782回この商品を含
Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。 ・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R本体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる(どっちでもいいw) Rjpwiki 日本語で書かれている、これまでのRに関する資料の集大成 データの加工技、
HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時
ツイッターで統計学の読み物を教えて欲しいと言われましたので、今まで眺めてきた本の中から3冊紹介したいと思います。 読み物 統計学を拓いた異才たち―経験則から科学へ進展した一世紀 作者: デイヴィッドサルツブルグ,David S. Salsburg,竹内惠行,熊谷悦生出版社/メーカー: 日本経済新聞社発売日: 2006/03/20メディア: 単行本購入: 28人 クリック: 366回この商品を含むブログ (90件) を見る 過去の統計家の偉人達のエピソードをまとめた本です。最も多く利用されるt検定がどうやって産まれたかとかいろいろ書いてあります。 その数学が戦略を決める (文春文庫) 作者: イアンエアーズ,Ian Ayres,山形浩生出版社/メーカー: 文藝春秋発売日: 2010/06/10メディア: 文庫購入: 34人 クリック: 303回この商品を含むブログ (76件) を見る 古典的
はじめに ― この記事の立ち位置について 本書は、一人のコンサルタントが歩んできた実績や体験を単に記録するものではない。 また、最新のAI技術を解説するための技術書でもなければ、経営論を体系的に整理した教科書でもない。 本書は、それらのすべてを横断し、なおかつ超えたところに位置づけられる。 ここに描かれているのは、「企業が成長するとはどういうことか」を追い求めた軌跡であり、同時に「成長を再現するための方程式」を発見するまでの物語である。 それは、著者が大学の研究室から始めたデータ分析の試みから、大企業の経営会議で数百億円単位の意思決定を支える経験、そして社会全体を見渡す思想に至るまで、二十年近い試行錯誤の果てに結晶化した知見の集大成である。 技術書ではなく、物語である理由 AIやデータサイエンスを扱った専門書は数多く存在する。 だが、技術そのものを知っても、経営の現場で活かせるかどうかは別
元ネタのブログは「10 R packages every data scientist should know about」と「10 R packages I wish I knew about earlier」です。紹介されているパッケージはどれも良いのでメモしておきます。私が「取得した方がいいだろうなー」と思う順番に並べ替えてます。サンプルコードは後者の記事に載ってます。 randomForest:超強力な汎用予測モデル RPostgreSQL, RMYSQL, RMongo, RODBC, RSQLite:各種データベースへの接続 plyr:データ集約 reshape2:データ加工 forecast:時系列予測 stringr:文字列操作 lubridate:日付操作 sqldf:SQLライクなデータ操作 ggplot2:綺麗なプロットを描く qcc:品質管理 個人的には、下の3つは
今日はMCMC法についての解説です。 メモ程度のものですが、ご参考になれば幸いです。 日本語の良本はこれ。 マルコフ連鎖モンテカルロ法 (統計ライブラリー) 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2008/05/01メディア: 単行本購入: 11人 クリック: 168回この商品を含むブログ (13件) を見る 有名な解説論文: Sampling-Based Approaches to Calculating Marginal Densities. Gelfand AE and Afrian F. M. Smith. Journal of the American Statistical Association, 85;410:398-409, 1990. 【概念】 Monte Carlo(モンテカルロ法) モンテカルロ:金持ちの町、F1もやってる 興味のある値を「頻度」を使
久々の更新です。前々から注目していた『Data Mining and Statistics for Decision Making』が届きました。ちょっと読んだだけでも、ここ数年で一番の応用本だと感じました。単なる応用本ではなく、解析やデータマイニングがビジネスに利用されることを非常に強く意識されている内容です。 Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics) 作者: Stéphane Tufféry出版社/メーカー: Wiley発売日: 2011/04/18メディア: ハードカバー購入: 15人 クリック: 478回この商品を含むブログ (2件) を見る 見出しを読むだけでも素晴らしいのが分かります。おしゃれStatistics勉強会で使っている『Stati
もう今年も終わりですね。今日はクリスマスというのに何をしてるのやら、、、とか思いつつ記事を書いてます。1年の大掃除の意味も込めて、今年いろんな人に紹介してきた本やサイトをまとめておこうかなと思います。 まずは定番の2冊。「機械学習」「統計的学習」と名前は分かれていますが、同じ手法を視点を変えて説明しているような感じです。 PRLM(機械学習、一部PDFあり) Hastie本(統計的学習、PDFあり) 機械学習をいきなり英語で本格的に学ぶのがキツい場合は、これらの本やサイトが網羅的なのでオススメです。 多変量解析入門――線形から非線形へ 作者: 小西貞則出版社/メーカー: 岩波書店発売日: 2010/01/27メディア: 単行本(ソフトカバー)購入: 14人 クリック: 347回この商品を含むブログ (9件) を見る 機械学習 はじめよう(記事へのリンク) 英語の初級本は「おしゃスタ」勉強会
EMアルゴリズムはいろんなところで使われます。 基本的には未知パラメータの推定方法の一種です。 とりあえず箇条書でまとめます。 提案論文:Maximun likelihood from incomplete data via the EM algorithm. Dempster AP, Laird NM and Rubin DB. JRSS B. 39,1-38. 1977. 提案者のRubinは欠測分野、因果推論の権威で次の教科書も書いています。 Statistical Analysis with Missing Data (Wiley Series in Probability and Statistics) 作者: Roderick J. A. Little,Donald B. Rubin出版社/メーカー: Wiley-Interscience発売日: 2002/09/09メディア:
先日より、リクルート様のITエンジニアのための実務スキル評価サービス「CodeIQ」で、データサイエンティストに関する問題を出題させて頂いております(問題集はこちら)。先日12/12のおしゃスタ@リクルートでも少し解説しましたが、Rでの解答例をお見せする時間がなかったので、この機会にブログで公開します(おしゃスタに関するCodeIQ様のブログはこちら)。去年に引き続き勢いだけで参加したR Advent Calendar 2012でしたが、ちゃんとネタが見つかって良かった!!!でも無計画に参加したらクリスマスイブの日に当たってしまったので、、、日付が変わるくらいにさっさと書いてしまいたいと思います!!!爆 【データサイエンティスト初級問題】 【前提】 とある転職サイトから、「とりあえずデータがあるんだけど、、、」と言われてデータを受け取りました。先方は何をして欲しいかまだはっきりと決まってな
2012年3月12日、計算機科学分野の権威ある賞、チューリング賞(wikiはこちら)をJudea Pearl先生が受賞されました(米記事はこちら、日本記事はこちら)。Pearl先生は「因果推論」分野の権威です。因果推論はベイジアンネットワークや構造方程式モデリング(SEM、パス解析)などの基本理論になります。チューリング賞が出たこともあって因果推論が注目されそうですが、難易度が高い分野でもあります。そこで、私が読んで理解が進んだ本を紹介致します。 まずは、このエッセイ本を読むと「因果関係とは何か?」「効果とは何か?」といった事をとてもイメージしやすくなります。これは医療統計分野の本なので、「ランダム化試験」という用語で因果関係を説明していますが、web業界の方はA/Bテストと言った方が分かりやすいかもしれません。A/Bテストをすることでレイアウトの良し悪しが判明するのも、基礎には因果推論の
このブログのTips052で、RでDeep Learningをやっているのを紹介してもらったので、自分も試してみました。 「Deep Learningすげぇ!!」という話は良く聞くのですが、亜種がいっぱいあるみたいで、まだあまり調査しきれてません。また時間があれば調査してまとめられると良いのですが。 以下、RでDA(Denoising Autoencoders)を実行するプログラムです。 sigmoid <- function(x){ return (1 / (1 + exp(-x))) } dA <- setRefClass( Class="dA", fields=list(input="matrix", n_visible="numeric", n_hidden="numeric", W="matrix", W.prime="matrix", hbias="vector", vbias
データが多くなってくると散布図が真っ黒になってしまうので、濃淡を付けることでどこに集中しているかが分かります。マイクロアレイ系でよく使われる Bioconductorというプロジェクトのパッケージを使うので、通常のパッケージをインストール方法が違います。 インストール source("http://www.bioconductor.org/biocLite.R") biocLite("prada") プログラム例 library(prada) n <- 10000 x1 <- matrix(rnorm(n), ncol=2) x2 <- matrix(rnorm(n, mean=3, sd=1.5), ncol=2) x <- rbind(x1,x2) smoothScatter(x) pairs(iris, panel = function(...) smoothScatter(...,
私はRからプログラミングに入って分析もRでやってるわけですが、ちょっと大きめのデータになるとRでは扱うのが難しくなります。そこで前々からPythonに手を出そうとしていたのですが、なかなかインストールがうまく行きませんでした。しかし、ようやくPython環境を整えることが出来たので、メモしておきます(@teikawさんにいろいろ教えてもらいました)。 Pythonのインストールは良く使われるパッケージが入っている、enthoughtやpythonxyで行うのが良いです。自分は前者のアカデミック版をインストールしました。インストールした後、環境変数の設定が必要かもしれません(以前にPython単体でインストールしたときに環境変数は設定していました)。 機械学習を実行するにあたって、今一番アツそうなのがscikits.learnというライブラリです。これはGoogle summer codeが
主成分分析とか因子分析とかの手法は特異値分解系でまとめられますが、調べてみると意外に良い資料がなくてなかなか理解が進まないですorz しかしとりあえず調べれる範囲で理解した部分を記事にしておきます。 教科書はこちら。私が学部4年のときに読んだ本で、自分にとっては一番分かり易く書かれています。しかし絶版orz 多次元データの解析 (シリーズ入門統計的方法 3) 作者: 鷲尾泰俊,大橋靖雄出版社/メーカー: 岩波書店発売日: 1989/02/21メディア: 単行本購入: 2人 クリック: 76回この商品を含むブログ (1件) を見る ※以下記事ですが、まだ曖昧な部分も多いです。間違いがあればご指摘して下されば幸いです。「コレスポンデンス分析」と「多次元尺度法」はもう少し理解を深めるために、別途調査する予定です。 【特異値分解・固有値分解って?】 特異値分解 行列Aを次のように分解する。 A=U
マレーシア航空のいろんな話題が飛び交っている中、Twitterで「【助けて】全世界のインターネットユーザーに協力を呼びかけ! この写真から「消息を絶ったマレーシア航空の旅客機」を見つけてください」という記事を見つけました。 衛星写真の画像が大量にあるので、人海戦術で破片を見つけよう、という趣旨です。私は分析屋なので、データサイエンスを使って手助けできないか?と思い、少し分析してみました。何かの一助になればと思い、ブログで公開します。 データサイエンスを利用するには、まずデータが必要です。衛星画像はこのサイトにあります。 そのサイトから、まずは特徴的な画像を拾ってきて、分析してみます。サイトを見てみると、画像はだいたい3つのパターンに分かれているようでした。 雲の画像 海の画像 何かの物体の画像 3つ目の”何かの物体”を画像から判定できれば、それが旅客機かもしれません。分析のロジックを作るた
今回はLASSOとリッジ回帰についてです。 パッケージは「glmnet」、「lars」、「lasso2」で実行できます。 glmnetとlarsの作者はFriedman、Hastie、Efron、Tibshiraniと有名な先生ですが、lasso2の作者は知らないです。。 内容もほぼ一緒なので、LASSOをするときはglmnet一択で良いと思います。 まずは使用例から。。。 データはLARSパッケージにあるdiabetesを使います。 このデータである結果変数y(中性脂肪?)をx(性別や血圧など)によって予測するモデルを作ります。 まずは単純な線形回帰をします。 library(lars) library(glmnet) data(diabetes) Linear <- lm(diabetes$y ~ diabetes$x) Linear$coefficients これが推定結果です。 (
今回はweb業界でよく行われているA/Bテストについて記事にします。 参考書はこれです。参考にはしましたが、A/Bテストについては1ページくらいしか書いてありませんのであしからず。 PROFESSIONAL アクセス解析 作者: 衣袋宏美出版社/メーカー: 技術評論社発売日: 2011/04/13メディア: 大型本購入: 4人 クリック: 418回この商品を含むブログ (5件) を見る ※今回はサイトのレイアウトと言う意味の「デザイン」とランダム化比較試験の「デザイン」の両方が出てきますが、混乱されないようお気を付け下さい。。。 Google Website Optimizerで、サイトの最適デザインを調べることができます。A/BテストはデザインAまたはBのサイトをランダムに表示し、どちらのサイトデザインが「統計的に有意」であるかを検定するサービスのようです。多変量テストの場合はサイトデザ
この本に沿って時系列データの解析方法をまとめました。 Rによる時系列分析入門 作者: 田中孝文出版社/メーカー: シーエーピー出版発売日: 2008/06/01メディア: 単行本購入: 12人 クリック: 113回この商品を含むブログ (19件) を見る サンプルデータを使っても面白くないので、厚労省が公開している医療費のデータを使いました。 厚労省の医療費データベース 例によってこのデータはエクセルで公開されていて、そのまま解析できる状態じゃありません。 今回は入院の総医療費だけを扱ったので、その部分だけ加工してcsvにしました。 一応、加工したデータはダウンロードのページに置いてます。 それでは、解析していきます。 まずはデータ読み込みと加工。 Iryouhi <- read.csv("医療費.csv", as.is = T) Nyuin <- ts(Iryouhi[, 2], fre
まずは教科書を紹介します。 Observational Studies (Springer Series in Statistics) 作者: Paul R. Rosenbaum出版社/メーカー: Springer発売日: 2010/12/03メディア: ペーパーバック購入: 1人 クリック: 26回この商品を含むブログ (1件) を見る Rosenbaum先生は傾向スコア(propensity score)を提案した方です。 この教科書に書いていあるのは傾向スコアについてだけで、IPWやDRは書いてありません。 日本語はこちらの星野先生の本。 調査観察データの統計科学―因果推論・選択バイアス・データ融合 (シリーズ確率と情報の科学) 作者: 星野崇宏出版社/メーカー: 岩波書店発売日: 2009/07/29メディア: 単行本購入: 29人 クリック: 285回この商品を含むブログ (26
教科書:統計モデル入門 〜回帰モデルから一般化線形モデルまで〜 一般化線形モデル入門 原著第2版 作者: Annette J.Dobson,田中豊,森川敏彦,山中竹春,冨田誠出版社/メーカー: 共立出版発売日: 2008/09/08メディア: 単行本購入: 15人 クリック: 152回この商品を含むブログ (13件) を見る 論文:Nelder and Wedderburn (1972)…一般化線形モデル、McCullagh and Nelder (1989)…擬似対数尤度 今日は一般化線形モデルについてまとめておきます。 【導入】 一般化線形モデルはGLIM(ぐりむ) 一般線形モデルはGLM(じーえるえむ) 一般化推定方程式はGEE(じーいーいー) 結果変数(outcome)…予測したい変数 別名:応答変数(response)、従属変数(dependent)→「結果変数」と脳内変換 説明
教科書 The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition (Springer Series in Statistics) 作者: Trevor Hastie,Robert Tibshirani,Jerome Friedman出版社/メーカー: Springer発売日: 2008/12/01メディア: ハードカバー購入: 1人 クリック: 222回この商品を含むブログ (16件) を見る Classification and Regression Trees (Wadsworth Statistics/Probability) 作者: Leo Breiman,Jerome Friedman,Charles J. Stone,R.A. Olshen出版社/メー
『パターン認識と機械学習(略称:PRML、ぷるむる)』の勉強会を行っています。 パターン認識と機械学習 上 - ベイズ理論による統計的予測 作者: C. M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇出版社/メーカー: シュプリンガー・ジャパン株式会社発売日: 2007/12/10メディア: 単行本購入: 18人 クリック: 1,588回この商品を含むブログ (111件) を見る とはいっても、いきなりPRMLから読み出すのはキツいですので、まずは鹿島先生の学部3年生向けの講義資料に沿う形で、「プレ」勉強会を行いました(勉強会の案内はこちらのFacebookページで)。 第一回は概論1〜3だったのですが、20:00くらいから始めて3時間くらいかかってしまいましたorz 先生の資料を読みながら、引っかかるところを議論・説明するという形で進めると、「尤度」とか基本的な概念をどう
「意思決定のためのデータマイニング」という以下の本から、データマイニングに関する8つの誤解についての抜粋です。 Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics) 作者: Stéphane Tufféry出版社/メーカー: Wiley発売日: 2011/04/18メディア: ハードカバー購入: 15人 クリック: 478回この商品を含むブログ (2件) を見る よく質問されることも含まれてます。”誤解”なので、そうではないですよ、ということがタイトルになってます。 1. 事前の知識は必要ない⇒事前知識は必要 データマイニングする際には分析対象のデータに関する事前知識は必要です。特に変数が表す意味や、どういう経緯でデータが入手されているかなど、業務知識は重要です。
調査を行うときは全数調査を行えば統計的な推測を行う必要はありませんが、どうしてもサンプリングして部分集団の解析で全体を推測したいという場合があります。 例えば国や県単位の統計を出したいけど全数調査は無理だとか、データは全てあるけどPCのスペック上一度に解析できないとか。 そんなときのサンプリング方法として次のようなものがあります。 ランダムサンプリング(標本の重複なし) ブートストラップサンプリング(標本の重複あり) 層別サンプリング バランスサンプリング(cube model) SASではproc surveyselectが用意されており、Rではsamplingライブラリがあります(SASのヘルプはここにあります)。 SASの場合はmethodで方法を指定できて、例えばmethod=ursでブートストラップサンプリング、またstrataを指定することで層別サンプリングをします。 Rのsa
今回はcaretパッケージの調査です。 機械学習、予測全般のモデル作成とかモデルの評価が入っているパッケージのようです。 多くの関数があるので、調査したものから並べていきます。 varImp 予測モデルを作ったときの、変数の重要度を計算する。 次のプログラムでは、花びらの長さなどの4変数を用いて、あやめの種類をk-近傍法で予測した場合に、どの変数が重要なのかを種類別に計算したもの。 #------irisデータで変数の重要度を計算 data(iris) TrainData <- iris[,1:4] TrainClasses <- iris[,5] knnFit <- train(TrainData, TrainClasses, "knn") knnImp <- varImp(knnFit) dotPlot(knnImp) 最後のdotplotで図を描いてくれるのですが、見づらいので自作プ
次のページ
このページを最初にブックマークしてみませんか?
『『企業成長の方程式 ― AIDグロースコミットによる成長戦略』』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く