タグ

ブックマーク / iisssseeiiii.hatenablog.com (4)

  • 統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~

    googleさんやマイクロソフトさんは「次の10年で熱い職業は統計学」と言っているようです。またIBMは分析ができる人材を4,000人増やすと言っています(同記事)。しかし分析をするときの基礎的な学問は統計学ですが、いざ統計学を勉強しようとしてもどこから取りかかればいいか分からなかくて困るという話をよく聞きます。それに機械学習系のは最近増えてきましたが、統計学自体が基礎から学べるはまだあまり見かけないです。 そこで今回は、統計学を初めて勉強するときに知っておいた方が良い10ポイントを紹介したいと思います。 1. 同じ手法なのに違う呼び名が付いている 別の人が違う分野で提案した手法が、実は全く同じだったということがあります。良く聞くのは、数量化理論や分散分析についてです。 数量化理論 数量化I類 = ダミー変数による線形回帰 数量化II類 = ダミー変数による判別分析 数量化III類 =

    統計学を勉強するときに知っておきたい10ポイント - Issei’s Analysis ~おとうさんの解析日記~
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 線形単回帰をmap reduce風に分散処理して計算する - データサイエンティスト上がりのDX参謀・起業家

    巷では何かと分散処理が流行っています。 特にHadoop+Mahoutで大規模データに対して機械学習や統計モデルを高速分散処理することで、データマイニングがより盛んになるのではないかと期待がされています。 分散処理するためには、最後に足し合わせることができればいいわけで、考えてみるとそんなに難しいことじゃないんですよね。 試しにRを使って、線形単回帰を分散処理っぽく計算します。 大規模データで試しているじゃないですし、パフォーマンスを比較しているわけではありませんのであしからず、、 結局、分散処理は データを分割 それぞれのデータでパラメータ計算 計算結果を足す の3つをやっているだけだと、私は理解しています。 ですので、その3つの手順をRで100サンプル発生させて書いてみます。 まずは全体データで回帰係数を計算。 set.seed(1) x <- rnorm(100) set.seed(

    線形単回帰をmap reduce風に分散処理して計算する - データサイエンティスト上がりのDX参謀・起業家
  • MCMC(Markov Chain Monte Carlo、マルコフ連鎖モンテカルロ法)について - データサイエンティスト上がりのDX参謀・起業家

    今日はMCMC法についての解説です。 メモ程度のものですが、ご参考になれば幸いです。 日語の良はこれ。 マルコフ連鎖モンテカルロ法 (統計ライブラリー) 作者: 豊田秀樹出版社/メーカー: 朝倉書店発売日: 2008/05/01メディア: 単行購入: 11人 クリック: 168回この商品を含むブログ (13件) を見る 有名な解説論文: Sampling-Based Approaches to Calculating Marginal Densities. Gelfand AE and Afrian F. M. Smith. Journal of the American Statistical Association, 85;410:398-409, 1990. 【概念】 Monte Carlo(モンテカルロ法) モンテカルロ:金持ちの町、F1もやってる 興味のある値を「頻度」を使

    MCMC(Markov Chain Monte Carlo、マルコフ連鎖モンテカルロ法)について - データサイエンティスト上がりのDX参謀・起業家
  • 1