タグ

DataMiningに関するmyzkkzyのブックマーク (4)

  • 総務省|報道資料|統計におけるオープンデータの高度化

    総務省は、政府統計のポータルサイトであるe-Statなどで広く公開している政府統計データについて、より高度な利用を可能とする取組についてまとめました。 総務省統計局は、政府統計の中核的機関として、人口や事業所・企業、消費など国の基幹となる重要な統計を作成しております。データ提供の面においても、e-Statを通じ広く公開してきました。 (政府統計の総合窓口(e-Stat) http://www.e-stat.go.jp) 現在、政府全体でオープンデータへの取組を推進しているところですが、これらの取組をリードする総務省として、政府統計の情報提供のかたちを更に高度化すべく検討を行い、独立行政法人統計センターと協力し、トップランナーとして次のような取組を進めています。具体的には次の3つです。 (1)API機能による統計データの高度利用環境の構築 (2)統計GIS機能の強化 (3)オンデマンドによる

    総務省|報道資料|統計におけるオープンデータの高度化
  • FrontPage - 情報論的学習理論と機械学習の「朱鷺の杜Wiki」

    朱鷺の杜Wiki(ときのもり うぃき)† 朱鷺の杜Wikiは,機械学習に関連した,データマイニング,情報理論,計算論的学習理論,統計,統計物理についての情報交換の場です.これら機械学習関係の話題,リンク,関連事項,書籍・論文紹介などの情報を扱います. 更新されたページを確認するにはRSSリーダを使って右下のRSSリンクをチェックするか,最終更新のページを参照してください. ページの中でどこが更新されたかを見るには,上の「差分」をクリックして下さい. 数式の表示に MathJax を利用しています.数式の上でコンテキストメニューを使うと各種の設定が可能です.特に設定をしなくても数式は閲覧できますが,フォントをインストールすれば数式の表示がきれいで高速になります.詳しくは 数式の表示 のページを参照して下さい. ごく簡単なWikiの使い方がこのページの最後にあります.トップページやメニューなど

  • データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    2006年のデータマイニング学会、IEEE ICDMで選ばれた「データマイニングで使われるトップ10アルゴリズム」に沿って機械学習の手法を紹介します(この論文は@doryokujin君のポストで知りました、ありがとうございます!)。 必ずしも論文の内容には沿っておらず個人的な私見も入っていますので、詳細は原論文をご確認下さい。また、データマイニングの全体観をサーベイしたスライド資料がありますので、こちらも併せてご覧下さい。 データマイニングの基礎 View more presentations from Issei Kurahashi 1. C4.5 C4.5はCLSやID3といったアルゴリズムを改良してできたもので、決定木を使って分類器を作ります。決定木といえばCARTが良く使われますが、CARTとの違いは以下のとおりです。 CARTは2分岐しかできないがC4.5は3分岐以上もできる C

    データマイニングで使われるトップ10アルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 31データクレンジング方法

    データマイニングでは、データが膨大となっている場合があります。ここまでデータ量が大きくなると計算量の問題で解析時間がかかりすぎるという問題が起き、色々なデータマイニング技法を試行することができません。 それでは、大規模データに対抗するためにどうしたらいいでしょう?  今、著者が思いついたものを挙げてみると 1.高速なマシンに期待する 2.大規模でも計算する手法を編み出す 3.仮説を立てて絞り込んで挑戦 4.サンプリングして、そこそこの量のデータで試す 5.それでもじっくり処理が終わるのを待つ ということをとりあえず思いつきました。(他にある場合は教えてください) それでは、以上の項目をデータマイニングとして検討してみましょう。 【1番:高速なマシンに期待する】高速マシンに投資することは基的に有効です。30年前の計算機ではどうやっても不可能であった計算処理であっても技術

  • 1