タグ

ブックマーク / iisssseeiiii.hatenablog.com (3)

  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 統計・解析ビジネスユーザー必読のデータマイニング本 - データサイエンティスト上がりのDX参謀・起業家

    久々の更新です。前々から注目していた『Data Mining and Statistics for Decision Making』が届きました。ちょっと読んだだけでも、ここ数年で一番の応用だと感じました。単なる応用ではなく、解析やデータマイニングがビジネスに利用されることを非常に強く意識されている内容です。 Data Mining and Statistics for Decision Making (Wiley Series in Computational Statistics) 作者: Stéphane Tufféry出版社/メーカー: Wiley発売日: 2011/04/18メディア: ハードカバー購入: 15人 クリック: 478回この商品を含むブログ (2件) を見る 見出しを読むだけでも素晴らしいのが分かります。おしゃれStatistics勉強会で使っている『Stati

    統計・解析ビジネスユーザー必読のデータマイニング本 - データサイエンティスト上がりのDX参謀・起業家
  • 大規模データマイニングでのモデル探索手法:K-sample plot - データサイエンティスト上がりのDX参謀・起業家

    巨大地震が日を襲い、皆不安を感じながら生活していると思います。 そんな中せめて自分に出来ることをしようと思い、研究してきた内容をブログに記します。 サンプル数が大規模なデータでニューラルネットワークとかサポートベクターマシンとかをしたくても、 時間がかかってしょうがない!ってときに参考にしてみて下さい。 近年、特にweb関係の業界ではデータデータをいくらでも記録できるようになったため、データの規模が非常に大きくなっています。 大規模データに機械学習、マシーンラーニングを適用したいという要望は高まっています。 そういうときはデータからサンプリングして性能を確かめることが多いと思います。 ですがそんな時は、 「サンプル数はどれくらいがいいの?」 「一回やっただけじゃ真の性能は分からないよね?」 「しかもクロスバリデーションしなきゃいけないし。。」 などのような事を疑問に思うでしょう。 今回紹

    大規模データマイニングでのモデル探索手法:K-sample plot - データサイエンティスト上がりのDX参謀・起業家
  • 1