タグ

ブックマーク / iisssseeiiii.hatenablog.com (5)

  • RでDeep Learningの一種をやってみる - データサイエンティスト上がりのDX参謀・起業家

    このブログのTips052で、RでDeep Learningをやっているのを紹介してもらったので、自分も試してみました。 「Deep Learningすげぇ!!」という話は良く聞くのですが、亜種がいっぱいあるみたいで、まだあまり調査しきれてません。また時間があれば調査してまとめられると良いのですが。 以下、RでDA(Denoising Autoencoders)を実行するプログラムです。 sigmoid <- function(x){ return (1 / (1 + exp(-x))) } dA <- setRefClass( Class="dA", fields=list(input="matrix", n_visible="numeric", n_hidden="numeric", W="matrix", W.prime="matrix", hbias="vector", vbias

    RでDeep Learningの一種をやってみる - データサイエンティスト上がりのDX参謀・起業家
    labunix
    labunix 2013/04/05
  • 線形単回帰をmap reduce風に分散処理して計算する - データサイエンティスト上がりのDX参謀・起業家

    巷では何かと分散処理が流行っています。 特にHadoop+Mahoutで大規模データに対して機械学習や統計モデルを高速分散処理することで、データマイニングがより盛んになるのではないかと期待がされています。 分散処理するためには、最後に足し合わせることができればいいわけで、考えてみるとそんなに難しいことじゃないんですよね。 試しにRを使って、線形単回帰を分散処理っぽく計算します。 大規模データで試しているじゃないですし、パフォーマンスを比較しているわけではありませんのであしからず、、 結局、分散処理は データを分割 それぞれのデータでパラメータ計算 計算結果を足す の3つをやっているだけだと、私は理解しています。 ですので、その3つの手順をRで100サンプル発生させて書いてみます。 まずは全体データで回帰係数を計算。 set.seed(1) x <- rnorm(100) set.seed(

    線形単回帰をmap reduce風に分散処理して計算する - データサイエンティスト上がりのDX参謀・起業家
    labunix
    labunix 2012/05/28
  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
    labunix
    labunix 2012/05/28
  • Pythonで分析や機械学習メモ - データサイエンティスト上がりのDX参謀・起業家

    私はRからプログラミングに入って分析もRでやってるわけですが、ちょっと大きめのデータになるとRでは扱うのが難しくなります。そこで前々からPythonに手を出そうとしていたのですが、なかなかインストールがうまく行きませんでした。しかし、ようやくPython環境を整えることが出来たので、メモしておきます(@teikawさんにいろいろ教えてもらいました)。 Pythonのインストールは良く使われるパッケージが入っている、enthoughtやpythonxyで行うのが良いです。自分は前者のアカデミック版をインストールしました。インストールした後、環境変数の設定が必要かもしれません(以前にPython単体でインストールしたときに環境変数は設定していました)。 機械学習を実行するにあたって、今一番アツそうなのがscikits.learnというライブラリです。これはGoogle summer codeが

    Pythonで分析や機械学習メモ - データサイエンティスト上がりのDX参謀・起業家
    labunix
    labunix 2012/04/16
  • 一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家

    久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行購入: 64人 クリック: 782回この商品を含

    一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家
    labunix
    labunix 2012/03/31
  • 1