タグ

ブックマーク / iisssseeiiii.hatenablog.com (10)

  • LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家

    今回はLASSOとリッジ回帰についてです。 パッケージは「glmnet」、「lars」、「lasso2」で実行できます。 glmnetとlarsの作者はFriedman、Hastie、Efron、Tibshiraniと有名な先生ですが、lasso2の作者は知らないです。。 内容もほぼ一緒なので、LASSOをするときはglmnet一択で良いと思います。 まずは使用例から。。。 データはLARSパッケージにあるdiabetesを使います。 このデータである結果変数y(中性脂肪?)をx(性別や血圧など)によって予測するモデルを作ります。 まずは単純な線形回帰をします。 library(lars) library(glmnet) data(diabetes) Linear <- lm(diabetes$y ~ diabetes$x) Linear$coefficients これが推定結果です。 (

    LASSO and Ridge regression - データサイエンティスト上がりのDX参謀・起業家
    aidiary
    aidiary 2014/03/03
    リッジ回帰、バイアス・バリアンス
  • 一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家

    久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行購入: 64人 クリック: 782回この商品を含

    一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家
  • RでDeep Learningの一種をやってみる - データサイエンティスト上がりのDX参謀・起業家

    このブログのTips052で、RでDeep Learningをやっているのを紹介してもらったので、自分も試してみました。 「Deep Learningすげぇ!!」という話は良く聞くのですが、亜種がいっぱいあるみたいで、まだあまり調査しきれてません。また時間があれば調査してまとめられると良いのですが。 以下、RでDA(Denoising Autoencoders)を実行するプログラムです。 sigmoid <- function(x){ return (1 / (1 + exp(-x))) } dA <- setRefClass( Class="dA", fields=list(input="matrix", n_visible="numeric", n_hidden="numeric", W="matrix", W.prime="matrix", hbias="vector", vbias

    RでDeep Learningの一種をやってみる - データサイエンティスト上がりのDX参謀・起業家
  • Pythonで分析や機械学習メモ - データサイエンティスト上がりのDX参謀・起業家

    私はRからプログラミングに入って分析もRでやってるわけですが、ちょっと大きめのデータになるとRでは扱うのが難しくなります。そこで前々からPythonに手を出そうとしていたのですが、なかなかインストールがうまく行きませんでした。しかし、ようやくPython環境を整えることが出来たので、メモしておきます(@teikawさんにいろいろ教えてもらいました)。 Pythonのインストールは良く使われるパッケージが入っている、enthoughtやpythonxyで行うのが良いです。自分は前者のアカデミック版をインストールしました。インストールした後、環境変数の設定が必要かもしれません(以前にPython単体でインストールしたときに環境変数は設定していました)。 機械学習を実行するにあたって、今一番アツそうなのがscikits.learnというライブラリです。これはGoogle summer codeが

    Pythonで分析や機械学習メモ - データサイエンティスト上がりのDX参謀・起業家
  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
    aidiary
    aidiary 2012/05/28
  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
    aidiary
    aidiary 2011/11/24
    興味深い。基本的な手法だけでも使いこなせれば問題解決にはかなり有効。
  • 統計学の読み物&海外ドラマ - データサイエンティスト上がりのDX参謀・起業家

    ツイッターで統計学の読み物を教えて欲しいと言われましたので、今まで眺めてきたの中から3冊紹介したいと思います。 読み物 統計学を拓いた異才たち―経験則から科学へ進展した一世紀 作者: デイヴィッドサルツブルグ,David S. Salsburg,竹内惠行,熊谷悦生出版社/メーカー: 日経済新聞社発売日: 2006/03/20メディア: 単行購入: 28人 クリック: 366回この商品を含むブログ (90件) を見る 過去の統計家の偉人達のエピソードをまとめたです。最も多く利用されるt検定がどうやって産まれたかとかいろいろ書いてあります。 その数学が戦略を決める (文春文庫) 作者: イアンエアーズ,Ian Ayres,山形浩生出版社/メーカー: 文藝春秋発売日: 2010/06/10メディア: 文庫購入: 34人 クリック: 303回この商品を含むブログ (76件) を見る 古典的

    統計学の読み物&海外ドラマ - データサイエンティスト上がりのDX参謀・起業家
  • Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~

    Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。 ・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる(どっちでもいいw) Rjpwiki 日語で書かれている、これまでのRに関する資料の集大成 データの加工技、

    Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~
    aidiary
    aidiary 2011/09/18
  • 特異値分解・固有値分解系の分析 - データサイエンティスト上がりのDX参謀・起業家

    主成分分析とか因子分析とかの手法は特異値分解系でまとめられますが、調べてみると意外に良い資料がなくてなかなか理解が進まないですorz しかしとりあえず調べれる範囲で理解した部分を記事にしておきます。 教科書はこちら。私が学部4年のときに読んだで、自分にとっては一番分かり易く書かれています。しかし絶版orz 多次元データの解析 (シリーズ入門統計的方法 3) 作者: 鷲尾泰俊,大橋靖雄出版社/メーカー: 岩波書店発売日: 1989/02/21メディア: 単行購入: 2人 クリック: 76回この商品を含むブログ (1件) を見る ※以下記事ですが、まだ曖昧な部分も多いです。間違いがあればご指摘して下されば幸いです。「コレスポンデンス分析」と「多次元尺度法」はもう少し理解を深めるために、別途調査する予定です。 【特異値分解・固有値分解って?】 特異値分解 行列Aを次のように分解する。 A=U

    特異値分解・固有値分解系の分析 - データサイエンティスト上がりのDX参謀・起業家
    aidiary
    aidiary 2011/09/17
  • 1