統計に関するjiro_kitのブックマーク (8)

  • サービス終了のお知らせ - NAVER まとめ

    サービス終了のお知らせ NAVERまとめは2020年9月30日をもちましてサービス終了いたしました。 約11年間、NAVERまとめをご利用・ご愛顧いただき誠にありがとうございました。

    サービス終了のお知らせ - NAVER まとめ
  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家

    久しぶりの投稿です。この一年間、Rの勉強会などに参加したり主催したりしてきて、後輩や勉強会の方々の話をいろいろ聞くとこができました。そんな中、一年間でRと統計学・機械学習を身に付けれるようなフローを作れるかも?と思ったので、ここで記録しておきます。統計学や機械学習は理論を勉強するだけでなく、Rで実際に解析してみることで、より理解が深まります。 ステップ1. 分布・検定 理論 統計学入門 (基礎統計学?) 作者: 東京大学教養学部統計学教室出版社/メーカー: 東京大学出版会発売日: 1991/07/09メディア: 単行購入: 158人 クリック: 3,604回この商品を含むブログ (79件) を見る R Rによるやさしい統計学 作者: 山田剛史,杉澤武俊,村井潤一郎出版社/メーカー: オーム社発売日: 2008/01/25メディア: 単行購入: 64人 クリック: 782回この商品を含

    一年で身に付ける!Rと統計学・機械学習の4ステップ - データサイエンティスト上がりのDX参謀・起業家
  • WEBで読める統計関係の良質な資料 - Interdisciplinary

    私がよく参考にする所を三箇所紹介します。いずれも、説明が極めて明瞭で、論理的な整合性や用語の丁寧な使い方を志向している所に好感が持てるサイトです。 ▼Econom01 Web Site, Sophia University, Tokyo, Japan 上智大学の大西博氏のサイト。私が統計関連で最もよく参照する所です。説明の仕方の明瞭さや、具体例を用いた解説がとても良いと思います。確率統計の一つ一つの概念について、大変丁寧に説明されています。たとえば、「相関(および因果関係)」については、 2つの変数の同時分布と、その条件付き分布は、変数の間の数量的結び付きを示しています。この数量的結び付きは、統計的頻度分布として観察されるものであり、現象の背後にある実態的な「関係」や「構造」から導かれる法則性を必要としません。 例えば、人間の身長と体重とは密接な統計的分布関係を持っていますが、両変数を決定

    WEBで読める統計関係の良質な資料 - Interdisciplinary
  • Rでマルコフ連鎖モンテカルロ法を試す - 餡子付゛録゛

    地味にここ5年間ぐらい、マルコフ連鎖モンテカルロ法(MCMC)が流行っているようです。汎用的な分布でベイズ推定を行う時に有用な数値解析アルゴリズムの総称で、Metropolis-Hastings algorithm(M-Hアルゴリズム)などが主要なメソッドとして使われています。ただし、ベイズ推定以外でも利用する事はできます。 RでもMCMCpackと言うパッケージがあるのですが、取扱説明書を見る限り、ベイズ推定が前提となっておりM-Hアルゴリズムだけを試すことは難しそうです(追記:MCMCmetrop1R()関数で利用できます)。もっとも同アルゴリズムは比較的シンプルなモノなので、ポアソン分布から乱数を作成し、それを推定する練習をしてみました。 1. ポアソン分布からλ=1の乱数を作成 ポアソン分布からλ=1の乱数を作成します。練習のためにポアソン分布を利用したのは、推定するパラメーターが

    Rでマルコフ連鎖モンテカルロ法を試す - 餡子付゛録゛
  • はてなブログ | 無料ブログを作成しよう

    思いは言葉に。 はてなブログは、あなたの思いや考えを残したり、 さまざまな人が綴った多様な価値観に触れたりできる場所です。

    はてなブログ | 無料ブログを作成しよう
  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • フィッシャーの「統計的方法と科学的推論」の訳者解説が素晴らしすぎる(その1) - Take a Risk:林岳彦の研究メモ

    編の方はフィデューシャル推測の項まで書いたのでもう良いかなあ、と思って終わりにして、今回から同書の「素晴らしすぎる訳者解説」のメモを書いていきます。 訳者の方は「渋谷政昭・竹内啓」さんなのですが、巻末の訳者解説が当に素晴らしく完成度が高いのです。「池上彰か!」とツッコミたくなるくらいその解説は分かりやすく明確です。 こんな素晴らしい解説文が絶版により埋もれてしまうのは大きな文化的損失ですので、来ならば全文引用したいところですが、色々な事情もありますので、フィデューシャル推測に関する部分だけを引用していきます。とはいっても長いので何回かに分けて見ていきます(かなり長丁場のシリーズになるかもしれません)。 同書201pの第3節の部分から引用していきます: 統計的推測の問題をはっきりさせるために、一つの例をあげて説明しよう。 今あるものの長さを測って、75.8cm、75.9cm、75.2c

    フィッシャーの「統計的方法と科学的推論」の訳者解説が素晴らしすぎる(その1) - Take a Risk:林岳彦の研究メモ
  • 1