[B! data_mining] oanusのブックマーク

Statistical and Machine-learning Data Mining

Statistics for Marketing The second edition of a bestseller, Statistical and Machine-Learning Data Mining: Techniques for Better Predictive Modeling and Analysis of Big Data, is still the only book, to date, to distinguish between statistical data mining and machine-learning data mining. The first edition, titled Statistical Modeling and Analysis for Database Marketing: Effective Techniques for M

oanus 2015/01/20

リンク

Microsoft Word - articleDM4TDAN.doc

oanus 2015/01/19

リンク

https://sci2s.ugr.es/docencia/m1/KimTaxonomy03.pdf

oanus 2015/01/19

data_mining

リンク

Microsoft Word - DevelopingImplementingandMonitoringanInfoProductQualityStr…

oanus 2015/01/19

data_mining

リンク

ビッグデータ雑感 - 廿TT

はじめに神林氏は、「統計の基本的な考え方は、大きなデータを全部見なくても、サンプリングで傾向が導き出せるという点。こういう統計技術があったため、今までセンサーデータ*1を採らなくても、分析ができていた。ビッグデータを声高に唱える人は、こういう統計の基礎の習得が不十分なのではないか？と思われることが多い」と言い放つ。 http://ascii.jp/elem/000/000/687/687170/ 「ビッグデータ！ビッグデータ！」と主張する人に「サンプリングしたらええがな」というのは多分禁句．厳格には全データの方使った方がいいってのは確かなんだが，ぶっちゃけ大して変わらん．— koji-toさん (@SavaMiso) 2012年7月21日基本的にはこれらの意見は正しいと思う。けどちょっとちがう見かたもできる。うん。だからサンプリングしてるよデータセットからもう一回サンプリングしなお

oanus 2015/01/10

data_mining

リンク

データ分析において必要なことを原点に立って考えてみる - Qiita

今日は統計や技術の詳細な話は少しお休みして、そもそもデータマイニングとは何なのか、分析において必要なことは何なのかを考えてみます。仮説力とは何なのかデータ分析の実務においては、分析モデルの手法や統計的方法の前にまず検討しなければならないことが多々あります。たとえば分析対象の問題をどのように設定するか、対象の特徴 (= 属性、振る舞い等) をどのように表現するか、何を可視化するかあるいはそれをどう決めるか、ログなどを用いて特徴の計算方法をどのように定義するか、といったことなどです。実務というのは大学での実験ではありません。目の前にあるデータに対して興味先行で機械学習や統計的手法を適用しても得られるものはありません。統計学の有名な言葉に GIGO (ゴミを入れればゴミが出てくる) という言葉がある通り、高度な解析手法やツールに溺れても自己満足で不適切な分析に終わってしまうのです。分析の

oanus 2014/06/11

リンク

「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る

「はじめてでもわかる RandomForest 入門－集団学習による分類・予測－」－第７回データマイニング+WEB勉強会＠東京Koichi Hamada

oanus 2014/05/15

data_mining

リンク

データマイニングで理想の彼女をGetだぜ！ - 発声練習

ある国際会議のkeynote Speechの中で紹介されていた話。非常に面白かった。 Wired: How a Math Genius Hacked OkCupid to Find True Love 「いまどきの若い男は、なんでもコンピュータか！」とか思われるかもしれないけど、何をしたのかを読んでみると「これって、単なるナンパの方が楽だったんじゃないか？」と思わされる。登場人物のスペックこの人の経歴がアメリカ的。名前：Chris McKinlay (35歳）経歴 2001年：Middlebury College を卒業。専攻は中国語同年：世界貿易センターで中国語から英語への翻訳のアルバイト。アルバイトを辞めた5週間後に9・11。〜2002年：その後、友達に誘われて、an offshoot of MIT’s famed professional blackjack team に

oanus 2014/05/14

data_mining

リンク

靴屋とデータマイニングと季節外れの冬物衣料 - あんちべ！

やぁ。4月も終わりだというのに、いやに寒い日が続いてるね、元気かい？面白い話がtwitterに流れていたので紹介したい。日経コンピュータの話。ビックデータ神話に乗り、多額の費用で解析した靴屋の話、解析結果、冬にブーツが売れ、夏にサンダルが売れるw。 https://twitter.com/yawachi/status/326460494154194944 これを見て君はどう思う？ twitterでは皆がこのニュースに対して嘲笑を投げかけていた。そりゃそうだろう、大金を掛けて誰でもわかることしか出てこないなんて、笑われて当然さ。データマイニングってのは、やっぱり、もっとこう、あの有名な「おむつとビール」ような意外性のあるものじゃないとね。そう、データマイニングに必要なのは意外性だ！あの靴屋は全く馬鹿なことをしたもんだ、ゲラゲラ！ OK、笑いが取れたようなので、もう一つ同じような話

oanus 2013/08/04

data_mining

リンク

なんちゃって平滑化その２ - ryamadaの遺伝学・遺伝統計学メモ

こちらで『なんちゃって度数分布平滑化』というのをやった多次元に拡張しようやり方は同じ。乳幼児の学習過程レベルの処理に限定する多次元の点分布を「感知」し、それを隣接細胞の刺激を順次足し合わせていくまた、順次、差分を取る。ただし多次元に上がったので一次の差分は１地点あたり次元数の方向の偏差分になるまた、１次元度数分布では、２次の差分も取ったが、多(n)次元に上げるとの偏差分が必要になる偏差分の成分がと大きくなることからわかるように、各点の勾配情報はn方向に関する、単調増・単調減・極大・極小の４通りについてn方向組み合わせになってくるまずは、和をとって平滑化することと、２次の偏差分までとってみよう次元方向の２次の偏差分の正負入れ替わりで最適化してみる２次元程度なら視細胞数がそこそこだが、次元が上がると、素子数が多くなってコンピュータ上では問題が生じるが… # データの座標によら

oanus 2013/05/19

data_mining

リンク

なんちゃって平滑化 - ryamadaの遺伝学・遺伝統計学メモ

こちらで『なんちゃってPCA』というのをやったどういうことかというと、乳幼児(のようにPCAとか行列とか算数とかがわからない生物)は、そんなことを知らなくても、視覚処理をするし、眺めるべき方向を選択することはできる、という話だったじゃあ、そんな「なんちゃって」な乳幼児が１次元空間の点の標本分布を眺めるとき、どんな風に処理するのだろう、処理して「かいつまむ」としたら、どんな風にするだろう、という話「なんちゃって乳幼児」は、１次元空間上の密度を知りたい、などとは考えない視覚刺激をなんらかの系統だった、しかも単純な処理をすることで、「いい感じ」な視神経-脳神経電気刺激パターンを得られるように視覚処理系を訓練していくはず単純な処理としては、網膜の光刺激で励起する細胞の第１層から始まってそれを多段階的に処理する多層があるだろう。そして、その多層の細胞は「和」と「差」を取ることくらいしかしな

oanus 2013/05/19

data_mining

リンク

なんちゃって正規直交基底 - ryamadaの遺伝学・遺伝統計学メモ

こちらで多次元オブジェクトの減次元視覚という話をしている何かしらのルールで情報量の多さを定め、その多い順に軸を定めつつ、正規直交基底を取り出したい、ということ PCAと同じ話ただしPCAでは、情報量の多さとは、軸に関する分散の大きさであって、線形代数的に解けることになっている今、情報量の多さについての定義を自由にしてしまったので(この先、正規直交基底の『直交』も必要条件でなくしていく予定(かもしれない)だったり、線形独立基底でもなく、適切な本数の軸、というくらい自由にするかもしれないのだけれど、ひとまず、正規直交基底は扱いやすいのでそうしておくとする)、線形代数で解くのはよろしくないそれよりは、視覚を発達させつつある乳幼児的に『矯めつ眇めつ』する方法を計算機にやらせたい乳幼児は、情報量の多い軸をどうやって選んでいるのだろう？大きく２つ考えられる１つ目の方法は、視点ごとに情報量

oanus 2013/05/19

リンク

ビッグ・データを操る者が勝つ

統計数理研究所所長樋口知之データ集約型科学という科学的探究手法が、科学の世界のみならず、ビジネス社会でも注目されている。基本方程式を理論解析や計算機シミュレーションで解く演繹的な手法ではなく、ビッグ・データ（莫大な量のデータ）から課題を見つけ出しモデル化することによって、よりよい予測を行ったり、新しい法則を見つけ出したりする帰納的な手法である。科学の「第四のパラダイム」として学問領域を超えて人類に新しい価値をもたらすと期待され、統計学と社会とのつながりがきわめて重視される時代が到来している。データ集約型科学は、すでに一九九〇年代に日米欧で研究が始まり、その黎明期において日本も大きく貢献した。当時私が研究していた人工衛星データはビッグ・データの走りであり、その後、ヒト・ゲノム計画で膨大なゲノム・データが獲得された結果、地球・宇宙科学と生命科学の両分野で先行して、ビッグ・データの解析手

oanus 2012/01/19

リンク

はてなブログ | 無料ブログを作成しよう

わたし的棚ぼた一万円選書急に千葉さんに手渡された封筒、開けてみたら1万円札が1枚。何ごとかと思えば、同期の出張を代わったお礼をもらったらしい。「葵はワンオペで育児してくれたから」と半分わけてくれました。泡銭の1万円これはもう、わたし的1万円選書をしろという思し召しなのでは……

oanus 2011/11/11

リンク

[2007-2009年: 機械学習概論（キャノン）]

2007年10月30日: 生成モデルに基づくパターン認識（１） 2007年11月29日: 生成モデルに基づくパターン認識（２） 2008年1月15日: 識別モデルに基づく機械学習（１） 2008年2月25日: 識別モデルに基づく機械学習（２） 2008年3月26日: 次元削減（１） 2008年4月22日: 次元削減（２） 2008年6月10日: 次元削減（３） 2008年8月7日: 次元削減（４） 2008年9月8日: 能動学習 2008年10月1日: 密度比推定の方法と応用 2009年5月12日: 強化学習入門

oanus 2011/11/05

リンク

自己組織化マップ・チュートリアル | Mindware Research Institute

Kohonenの自己組織化マップ（SOM: Self-Organizing Maps）は、標準的なデータサイエンス手法の1つとしてよく知られております。ただし、ここで述べるSOMテクノロジーの効用を発揮するには、高度なソフトウェアの実装が必要となります。Viscovery Software GmbH（本社・ウィーン）は1990年代から世界に先駆けて、実用的なSOMテクノロジーを開発し、日本では2000年からマインドウエア総研が提供しております。一般的な教科書や解説書に記述されているSOMでは、ここに述べるような実用性は実現できませんので、その点をご了承ください。大規模データの分布のトポロジーを保持しながら、コンパクトに圧縮した要約版を作成し、素早く類似データを照合するインタフェースとして動作し、データ分析やモデリング、モデルの実行を拡張・統合・支援する。というもので、これを単体で

oanus 2011/11/04

リンク

データマイニングの宝箱

データマイニングに関することを、データの集め方から知識の獲得まで、幅広く丁寧に解説しています。データマイニングで用いられる知識発見技術は、バスケット分析・決定木・ニューラルネットワークなど多くの手法があります。だからといって全部を同時に利用することは考えられません。解析手法はそれぞれの役割があり、その目的に合わせて使い分けなければなりません。それぞれの役割があると書きましたが、大きくわけると２つのタイプがあると思います。「データから本質を探る」タイプと「データから未知の現象を予測する」タイプです。この章では、「データの洗浄」から「知識発見の方法」を交えて知識発見を考えてみます。

oanus 2011/09/30

data_mining

リンク

econdays.net - econdays リソースおよび情報

This webpage was generated by the domain owner using Sedo Domain Parking. Disclaimer: Sedo maintains no relationship with third party advertisers. Reference to any specific service or trade mark is not controlled by Sedo nor does it constitute or imply its association, endorsement or recommendation.

oanus 2011/08/16

data_mining

リンク

ビューティフルデータ (THEORY/IN/PRACTICE) | Toby Segaran, Jeff Hammerbacher, 堀内孝彦, 真鍋加奈子, 苅谷潤, 小俣仁美, 篠崎誠 |本 | 通販 | Amazon

oanus 2011/08/06

リンク

Statistical Modeling: The Two Cultures | wrong, rogue and log

調べ物をしていたときに行き当たったエッセイである。 Statistical Modeling: The Two Cultures http://bit.ly/9AMRIn 著者は、機械学習のEnsermble learningの権威、Baggingアルゴリズム、Random Forestアルゴリズムの創始者であり、今は亡きLeo Breiman氏である。これのエッセイは本質を突いていて本当に面白い。最近では（特に欧米にて）純粋統計学コミュニティから離れた、統計を道具として使う科学コミュニティにおいて、頻度主義の呪縛から離れたベイジアンベースの統計モデリングが大流行していて、Hierachicalモデリングやベイジアンに基づいたロバスト推定をしなければダメなデータ解析という雰囲気になってきているようだ。この論文というか随想は「頻度 VS. ベイズ」という対立軸よりも更に下層にある、そもそも

oanus 2011/04/09

リンク

はてなブックマーク

タグ

関連タグで絞り込む (22)

data_miningに関するoanusのブックマーク (32)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス