タグ

サンプリングとdataminingに関するfukudamasa09のブックマーク (1)

  • 31データクレンジング方法

    データマイニングでは、データが膨大となっている場合があります。ここまでデータ量が大きくなると計算量の問題で解析時間がかかりすぎるという問題が起き、色々なデータマイニング技法を試行することができません。 それでは、大規模データに対抗するためにどうしたらいいでしょう?  今、著者が思いついたものを挙げてみると 1.高速なマシンに期待する 2.大規模でも計算する手法を編み出す 3.仮説を立てて絞り込んで挑戦 4.サンプリングして、そこそこの量のデータで試す 5.それでもじっくり処理が終わるのを待つ ということをとりあえず思いつきました。(他にある場合は教えてください) それでは、以上の項目をデータマイニングとして検討してみましょう。 【1番:高速なマシンに期待する】高速マシンに投資することは基的に有効です。30年前の計算機ではどうやっても不可能であった計算処理であっても技術

  • 1