タグ

data_miningに関するoanusのブックマーク (32)

  • Statistical and Machine-learning Data Mining

    Statistics for Marketing The second edition of a bestseller, Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data, is still the only book, to date, to distinguish between statistical data mining and machine-learning data mining. The first edition, titled Statistical Modeling and Analysis for Database Marketing: Effective Techniques for M

  • Microsoft Word - articleDM4TDAN.doc

  • https://sci2s.ugr.es/docencia/m1/KimTaxonomy03.pdf

  • Microsoft Word - DevelopingImplementingandMonitoringanInfoProductQualityStr…

  • ビッグデータ雑感 - 廿TT

    はじめに 神林氏は、「統計の基的な考え方は、大きなデータを全部見なくても、サンプリングで傾向が導き出せるという点。こういう統計技術があったため、今までセンサーデータ*1を採らなくても、分析ができていた。ビッグデータを声高に唱える人は、こういう統計の基礎の習得が不十分なのではないか?と思われることが多い」と言い放つ。 http://ascii.jp/elem/000/000/687/687170/ 「ビッグデータ!ビッグデータ!」と主張する人に「サンプリングしたらええがな」というのは多分禁句.厳格には全データの方使った方がいいってのは確かなんだが,ぶっちゃけ大して変わらん.— koji-toさん (@SavaMiso) 2012年7月21日 基的にはこれらの意見は正しいと思う。けどちょっとちがう見かたもできる。 うん。だからサンプリングしてるよ データセットからもう一回サンプリングしなお

    ビッグデータ雑感 - 廿TT
  • データ分析において必要なことを原点に立って考えてみる - Qiita

    今日は統計や技術の詳細な話は少しお休みして、そもそもデータマイニングとは何なのか、分析において必要なことは何なのかを考えてみます。 仮説力とは何なのか データ分析の実務においては、分析モデルの手法や統計的方法の前にまず検討しなければならないことが多々あります。たとえば分析対象の問題をどのように設定するか、対象の特徴 (= 属性、振る舞い等) をどのように表現するか、何を可視化するかあるいはそれをどう決めるか、ログなどを用いて特徴の計算方法をどのように定義するか、といったことなどです。 実務というのは大学での実験ではありません。目の前にあるデータに対して興味先行で機械学習や統計的手法を適用しても得られるものはありません。統計学の有名な言葉に GIGO (ゴミを入れればゴミが出てくる) という言葉がある通り、高度な解析手法やツールに溺れても自己満足で不適切な分析に終わってしまうのです。 分析の

    データ分析において必要なことを原点に立って考えてみる - Qiita
  • 「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る

    「はじめてでもわかる RandomForest 入門-集団学習による分類・予測 -」 -第7回データマイニング+WEB勉強会@東京Koichi Hamada

    「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
  • データマイニングで理想の彼女をGetだぜ! - 発声練習

    ある国際会議のkeynote Speechの中で紹介されていた話。非常に面白かった。 Wired: How a Math Genius Hacked OkCupid to Find True Love 「いまどきの若い男は、なんでもコンピュータか!」とか思われるかもしれないけど、何をしたのかを読んでみると「これって、単なるナンパの方が楽だったんじゃないか?」と思わされる。 登場人物のスペック この人の経歴がアメリカ的。 名前:Chris McKinlay (35歳) 経歴 2001年:Middlebury College を卒業。専攻は中国語 同年:世界貿易センターで中国語から英語への翻訳のアルバイト。アルバイトを辞めた5週間後に9・11。 〜2002年:その後、友達に誘われて、an offshoot of MIT’s famed professional blackjack team に

    データマイニングで理想の彼女をGetだぜ! - 発声練習
  • 靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!

    やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい? 面白い話がtwitterに流れていたので紹介したい。 日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う? twitterでは皆がこのニュースに対して嘲笑を投げかけていた。 そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。 データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。 そう、データマイニングに必要なのは意外性だ! あの屋は全く馬鹿なことをしたもんだ、ゲラゲラ! OK、笑いが取れたようなので、もう一つ同じような話

    靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ!
  • なんちゃって平滑化その2 - ryamadaの遺伝学・遺伝統計学メモ

    こちらで『なんちゃって度数分布平滑化』というのをやった 多次元に拡張しよう やり方は同じ。乳幼児の学習過程レベルの処理に限定する 多次元の点分布を「感知」し、それを隣接細胞の刺激を順次足し合わせていく また、順次、差分を取る。ただし多次元に上がったので一次の差分は1地点あたり次元数の方向の偏差分になる また、1次元度数分布では、2次の差分も取ったが、多(n)次元に上げるとの偏差分が必要になる 偏差分の成分がと大きくなることからわかるように、各点の勾配情報はn方向に関する、単調増・単調減・極大・極小の4通りについてn方向組み合わせになってくる まずは、和をとって平滑化することと、2次の偏差分までとってみよう 次元方向の2次の偏差分の正負入れ替わりで最適化してみる 2次元程度なら視細胞数がそこそこだが、次元が上がると、素子数が多くなってコンピュータ上では問題が生じるが… # データの座標によら

    なんちゃって平滑化その2 - ryamadaの遺伝学・遺伝統計学メモ
  • なんちゃって平滑化 - ryamadaの遺伝学・遺伝統計学メモ

    こちらで『なんちゃってPCA』というのをやった どういうことかというと、乳幼児(のようにPCAとか行列とか算数とかがわからない生物)は、そんなことを知らなくても、視覚処理をするし、眺めるべき方向を選択することはできる、という話だった じゃあ、そんな「なんちゃって」な乳幼児が1次元空間の点の標分布を眺めるとき、どんな風に処理するのだろう、処理して「かいつまむ」としたら、どんな風にするだろう、という話 「なんちゃって乳幼児」は、1次元空間上の密度を知りたい、などとは考えない 視覚刺激をなんらかの系統だった、しかも単純な処理をすることで、「いい感じ」な視神経-脳神経電気刺激パターンを得られるように視覚処理系を訓練していくはず 単純な処理としては、網膜の光刺激で励起する細胞の第1層から始まってそれを多段階的に処理する多層があるだろう。そして、その多層の細胞は「和」と「差」を取ることくらいしかしな

    なんちゃって平滑化 - ryamadaの遺伝学・遺伝統計学メモ
  • なんちゃって正規直交基底 - ryamadaの遺伝学・遺伝統計学メモ

    こちらで多次元オブジェクトの減次元視覚という話をしている 何かしらのルールで情報量の多さを定め、その多い順に軸を定めつつ、正規直交基底を取り出したい、ということ PCAと同じ話 ただしPCAでは、情報量の多さとは、軸に関する分散の大きさであって、線形代数的に解けることになっている 今、情報量の多さについての定義を自由にしてしまったので(この先、正規直交基底の『直交』も必要条件でなくしていく予定(かもしれない)だったり、線形独立基底でもなく、適切な数の軸、というくらい自由にするかもしれないのだけれど、ひとまず、正規直交基底は扱いやすいのでそうしておくとする)、線形代数で解くのはよろしくない それよりは、視覚を発達させつつある乳幼児的に『矯めつ眇めつ』する方法を計算機にやらせたい 乳幼児は、情報量の多い軸をどうやって選んでいるのだろう? 大きく2つ考えられる 1つ目の方法は、視点ごとに情報量

    なんちゃって正規直交基底 - ryamadaの遺伝学・遺伝統計学メモ
  • ビッグ・データを操る者が勝つ

    統計数理研究所 所長 樋口知之 データ集約型科学という科学的探究手法が、科学の世界のみならず、ビジネス社会でも注目されている。基方程式を理論解析や計算機シミュレーションで解く演繹的な手法ではなく、ビッグ・データ(莫大な量のデータ)から課題を見つけ出しモデル化することによって、よりよい予測を行ったり、新しい法則を見つけ出したりする帰納的な手法である。科学の「第四のパラダイム」として学問領域を超えて人類に新しい価値をもたらすと期待され、統計学と社会とのつながりがきわめて重視される時代が到来している。 データ集約型科学は、すでに一九九〇年代に日米欧で研究が始まり、その黎明期において日も大きく貢献した。当時私が研究していた人工衛星データはビッグ・データの走りであり、その後、ヒト・ゲノム計画で膨大なゲノム・データが獲得された結果、地球・宇宙科学と生命科学の両分野で先行して、ビッグ・データの解析手

  • はてなブログ | 無料ブログを作成しよう

    わたし的棚ぼた一万円選書 急に千葉さんに手渡された封筒、開けてみたら1万円札が1枚。何ごとかと思えば、同期の出張を代わったお礼をもらったらしい。 「葵はワンオペで育児してくれたから」と半分わけてくれました。 泡銭の1万円 これはもう、わたし的1万円選書をしろという思し召しなのでは……

    はてなブログ | 無料ブログを作成しよう
  • [2007-2009年: 機械学習概論(キャノン)]

    2007年10月30日: 生成モデルに基づくパターン認識(1) 2007年11月29日: 生成モデルに基づくパターン認識(2) 2008年1月15日: 識別モデルに基づく機械学習(1) 2008年2月25日: 識別モデルに基づく機械学習(2) 2008年3月26日: 次元削減(1) 2008年4月22日: 次元削減(2) 2008年6月10日: 次元削減(3) 2008年8月7日: 次元削減(4) 2008年9月8日: 能動学習 2008年10月1日: 密度比推定の方法と応用 2009年5月12日: 強化学習入門

  • 自己組織化マップ・チュートリアル | Mindware Research Institute

    Kohonenの自己組織化マップ(SOM: Self-Organizing Maps)は、標準的なデータサイエンス手法の1つとしてよく知られております。ただし、ここで述べるSOMテクノロジーの効用を発揮するには、高度なソフトウェアの実装が必要となります。Viscovery Software GmbH(社・ウィーン)は1990年代から世界に先駆けて、実用的なSOMテクノロジーを開発し、日では2000年からマインドウエア総研が提供しております。一般的な教科書や解説書に記述されているSOMでは、ここに述べるような実用性は実現できませんので、その点をご了承ください。 大規模データの分布のトポロジーを保持しながら、 コンパクトに圧縮した要約版を作成し、 素早く類似データを照合するインタフェースとして動作し、 データ分析やモデリング、モデルの実行を拡張・統合・支援する。 というもので、これを単体で

    自己組織化マップ・チュートリアル | Mindware Research Institute
  • データマイニングの宝箱

    データマイニングに関することを、データの集め方から知識の獲得まで、幅広く丁寧に解説しています。データマイニングで用いられる知識発見技術は、バスケット分析・決定木・ニューラルネットワークなど多くの手法があります。だからといって全部を同時に利用することは考えられません。解析手法はそれぞれの役割があり、その目的に合わせて使い分けなければなりません。 それぞれの役割があると書きましたが、大きくわけると2つのタイプがあると思います。「データから質を探る」タイプと「データから未知の現象を予測する」タイプです。 この章では、「データの洗浄」から「知識発見の方法」を交えて知識発見を考えてみます。

  • econdays.net - econdays リソースおよび情報

    This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

  • ビューティフルデータ (THEORY/IN/PRACTICE) | Toby Segaran, Jeff Hammerbacher, 堀内 孝彦, 真鍋 加奈子, 苅谷 潤, 小俣 仁美, 篠崎 誠 |本 | 通販 | Amazon

    ビューティフルデータ (THEORY/IN/PRACTICE) | Toby Segaran, Jeff Hammerbacher, 堀内 孝彦, 真鍋 加奈子, 苅谷 潤, 小俣 仁美, 篠崎 誠 |本 | 通販 | Amazon
  • Statistical Modeling: The Two Cultures | wrong, rogue and log

    調べ物をしていたときに行き当たったエッセイである。 Statistical Modeling: The Two Cultures http://bit.ly/9AMRIn 著者は、機械学習のEnsermble learningの権威、Baggingアルゴリズム、Random Forestアルゴリズムの創始者であり、今は亡きLeo Breiman氏である。 これのエッセイは質を突いていて当に面白い。最近では(特に欧米にて)純粋統計学コミュニティから離れた、統計を道具として使う科学コミュニティにおいて、頻度主義の呪縛から離れたベイジアンベースの統計モデリングが大流行していて、Hierachicalモデリングやベイジアンに基づいたロバスト推定をしなければダメなデータ解析という雰囲気になってきているようだ。この論文というか随想は「頻度 VS. ベイズ」という対立軸よりも更に下層にある、そもそも

    Statistical Modeling: The Two Cultures | wrong, rogue and log