タグ

Dataとanalysisに関するchess-newsのブックマーク (3)

  • データの次元削減に関する資料集 - めも

    次元削減とは データの次元削減(Dimensionality reduction) + データの可視化(Data Visualization) PCA Principal Component Analysis(PCA) randomized PCA Online Robust Principal Component Analysis(OR-PCA) 多様体学習 t-Distributed Stochastic Neighbor Embedding(t-SNE) Multidimensional Scaling(MDS) Isomap Locally Linear Embedding (LLE) Laplacian Eigenmaps(LE) Semidefinite Embedding (SDE) Latent Dirichlet Allocation(LDA) Labeled LDA P

    データの次元削減に関する資料集 - めも
  • dplyrを使いこなす!基礎編 - Qiita

    はじめに 4月ということで、新卒が入ってきたりRを使ったことないメンバーがJOINしたりしたので、 超便利なdplyrの使い方を何回かに分けてまとめて行きます。 Rは知らないけど、SQLとか他のプログラミング言語はある程度やったことあるみたいな人向けです。 dplyrを使いこなす!シリーズ 基礎編以外も書きましたので、↓からどうぞ。 * dplyrを使いこなす!Window関数編 * dplyrを使いこなす!JOIN編 dplyrとは データフレームの操作に特化したパッケージです。 Rは基的に処理速度はあまり早くないですが、dplyrはC++で書かれているのでかなり高速に動作します。 ソースの可読性もよくなるので、宗教上の理由で禁止されている人以外は使うメリットは大きいです。 処理可能なデータサイズの目安 あくまでも個人の環境に強く依存した感覚値ですが、1000万行、100MBぐらいのデ

    dplyrを使いこなす!基礎編 - Qiita
  • 分析技術とビジネスインテリジェンス

    20128月3 Python:決定木の作成 Pythonを用いたデータマイニング事例として決定木の作成をまとめる。 これまでの事例は、ある変数とある変数の一対関係が中心だった。それに対し手法は、ある目的変数に対し複数の説明変数がどのように組み合わさった関係があるのかを探索するための手法である。 決定木の強み•弱みは以下のページが参考になる。 http://scikit-learn.org/stable/modules/tree.html   上記ページはpythonのデータマイニングライブラリのscikit-learnのもので、 機能の多様さでいえばこれが一番良さそうに感じる。 ただし、結果の可視化方法まで含めた調査がスムースにいかなかったため、 機能の数はやや劣るが内容は十分にあるOrangeライブラリを用いた例を紹介したい。 scikit-learnは精度勝負の時には自由度と種類があ

  • 1