タグ

ブックマーク / iisssseeiiii.hatenablog.com (5)

  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~

    Rは統計解析を行うことができる強力なツールです。計算上の信頼性はとても高く、世界中の分析者が日々分析用パッケージを公開しております。近年では行政機関で使われているという事例もちらほら聞きます。 ・姫路市役所での事例 これまでSASは使ってきたけどRは全く使ったことがない!JAVAとかC++とかガリガリ書けるけどRはよく分からない!という方々がすんなりRの世界に入れるよう、資料の探し場所や導入部分をまとめておきます。 ※まだ不完全ですが情報を入手し次第アップデートしていきます。 1. 資料を探す場所 CRAN R体、パッケージ、PDF資料などの置き場 Task Viewに分野ごとのまとめ Searchでパッケージや資料の検索 CRANの読み方は「しーらん」派と「くらん」派でわかれる(どっちでもいいw) Rjpwiki 日語で書かれている、これまでのRに関する資料の集大成 データの加工技、

    Rを使えるようになるための10のこと - Issei’s Analysis ~おとうさんの解析日記~
  • 時系列データの解析(厚労省公開の医療費データ) - データサイエンティスト上がりのDX参謀・起業家

    このに沿って時系列データの解析方法をまとめました。 Rによる時系列分析入門 作者: 田中孝文出版社/メーカー: シーエーピー出版発売日: 2008/06/01メディア: 単行購入: 12人 クリック: 113回この商品を含むブログ (19件) を見る サンプルデータを使っても面白くないので、厚労省が公開している医療費のデータを使いました。 厚労省の医療費データベース 例によってこのデータはエクセルで公開されていて、そのまま解析できる状態じゃありません。 今回は入院の総医療費だけを扱ったので、その部分だけ加工してcsvにしました。 一応、加工したデータはダウンロードのページに置いてます。 それでは、解析していきます。 まずはデータ読み込みと加工。 Iryouhi <- read.csv("医療費.csv", as.is = T) Nyuin <- ts(Iryouhi[, 2], fre

    時系列データの解析(厚労省公開の医療費データ) - データサイエンティスト上がりのDX参謀・起業家
  • 混合効果モデル(変量効果モデル、mixed effect model)について - データサイエンティスト上がりのDX参謀・起業家

    混合効果モデルについてです。 論文1:Random-Effects Models for Longitudinal Data. Laird NM and Ware JH. 1982. Biometrics. 38. 963–74. 論文2:Approximate Inference in Generalized Linear Mixed Models. Breslow NE and Clayton DG. JASA, 1993. 88;421. 9-25. http://www.stat.ubc.ca/~ruben/papers/BreslowClaytonPQLpaper.pdf 論文2は論文1の混合効果モデルを一般化した論文で、このBreslow先生とClayton先生はかなり著名な先生です。混合効果モデルは機械学習の教科書には載ってなく、統計の基礎的な教科書にもあまり載ってません。A

    混合効果モデル(変量効果モデル、mixed effect model)について - データサイエンティスト上がりのDX参謀・起業家
  • データサイエンティスト上がりのDX参謀・起業家

    推定を作ってから約2ヶ月経ってからのコロナ陽性者数の推測結果、以下になりました。 第5波までの傾向だったらもう収束しているはずですが、収束しておらず、1日6,000〜7,000人くらいで停滞している感じです。これくらいの陽性者数が底になっている印象。恐らく、これからは今までと違う動きをすると思われるので、また違う推測モデルが必要かも。 2/6に、↓の記事で東京都のコロナ陽性者数に正規関数を当てはめて推移を予測しました。1ヶ月ほど経ったので、その予測の評価をしてみました。 iisssseeiiii.hatenablog.com 評価した結果は次の図のようになりました。 オレンジ線が実際の陽性者数で、青破線が2/6までのデータを使ったモデルで推測した値です。モデルを作ってから少し陽性者数が増加し、推測ではもっと増えると計算されてましたが、そこまで増えませんでした。ただ、その後の減り方は緩やかだ

    データサイエンティスト上がりのDX参謀・起業家
    t10471
    t10471 2011/04/06
    統計家って職業いいな。大学のとき、もっと勉強しておけばよかった。
  • 1