タグ

ブックマーク / blog.livedoor.jp/norikazu197768 (4)

  • 分析技術とビジネスインテリジェンス : Python:データ操作Tips(その1)

    2012年10月06日16:47 by norikazu197768 Python:データ操作Tips(その1) カテゴリ分析技術 norikazu197768 Comment(0)Trackback(0) これまで主に分析手法の観点から書いてきたので、今回は視点を変えデータ操作の観点からまとめたい。まずはこれまでの記事で使った操作をまとめたい。 pandas : http://pandas.pydata.org/ orange  : http://orange.biolab.si/ pyvttbl   : http://code.google.com/p/pyvttbl/ ■TSVファイルの読込 #Pandas >>> from pandas import * >>> adult = read_table('./data/adult.txt') #Orange >>> import Or

  • Python:決定木の作成 : 分析技術とビジネスインテリジェンス

    Pythonを用いたデータマイニング事例として決定木の作成をまとめる。 これまでの事例は、ある変数とある変数の一対関係が中心だった。それに対し手法は、ある目的変数に対し複数の説明変数がどのように組み合わさった関係があるのかを探索するための手法である。 決定木の強み•弱みは以下のページが参考になる。 http://scikit-learn.org/stable/modules/tree.html   上記ページはpythonのデータマイニングライブラリのscikit-learnのもので、 機能の多様さでいえばこれが一番良さそうに感じる。 ただし、結果の可視化方法まで含めた調査がスムースにいかなかったため、 機能の数はやや劣るが内容は十分にあるOrangeライブラリを用いた例を紹介したい。 scikit-learnは精度勝負の時には自由度と種類があるので良いと思う。 また可視化の際、Grap

  • 分析技術とビジネスインテリジェンス

    20128月3 Python:決定木の作成 Pythonを用いたデータマイニング事例として決定木の作成をまとめる。 これまでの事例は、ある変数とある変数の一対関係が中心だった。それに対し手法は、ある目的変数に対し複数の説明変数がどのように組み合わさった関係があるのかを探索するための手法である。 決定木の強み•弱みは以下のページが参考になる。 http://scikit-learn.org/stable/modules/tree.html   上記ページはpythonのデータマイニングライブラリのscikit-learnのもので、 機能の多様さでいえばこれが一番良さそうに感じる。 ただし、結果の可視化方法まで含めた調査がスムースにいかなかったため、 機能の数はやや劣るが内容は十分にあるOrangeライブラリを用いた例を紹介したい。 scikit-learnは精度勝負の時には自由度と種類があ

  • Python:回帰分析 : 分析技術とビジネスインテリジェンス

    今回はPythonによる回帰分析(OLS:Ordinary Least Squares)の実施方法をまとめる。 まずは最小2乗法に基づく重回帰式の作成と結果表示方法を取り上げる。 ライブラリの使い分けについては調査のしやすさを優先しているが、回帰分析については統計モデルはOrange、予測モデルはscikit-learnでやろうかなと考えている。 来はすべてを統一したいが、後者ライブラリは回帰分析の結果表示で、p値や偏回帰係数の出力が無いようだし、ステップワイズの実施方法も見当たらなかった。しかし、予測モデルとなれば、その精度と堅牢性を高めることが目的となり、p値などに言及しなくても説明責任は果たせるので、逆にscikit-learnのシンプルさが生かせると思っている。 ■ライブラリ >>> import Orange >>> from padnas import * ■データ >>>

  • 1