タグ

ブックマーク / blog.livedoor.jp/norikazu197768 (6)

  • 分析技術とビジネスインテリジェンス : 一般化線形モデル(離散確率分布版)

    2013年07月12日14:15 by norikazu197768 一般化線形モデル(離散確率分布版) カテゴリ分析技術 norikazu197768 Comment(0)Trackback(0) OLS(Ordinary Least Square)は、目的変数(応答変数)の分布を正規分布と仮定しているが、たとえば顧客ごとの購入金額は0以上の整数のように、解析対象が仮定を満たさないケースは多い。そこで仮定を一般化し、正規分布以外も扱えるようにしたものが、一般化線形モデルである。 モデリングにおいては、目的変数の確率分布とリンク関数の2つの設定が必要となる。確率分布は、離散分布と連続分布に大別される。リンク関数の逆関数は説明変数を変換し、確率や非負実数など目的変数が取り得る範囲に値を変換してくれる。もう少し形式的に言えば、リンク関数によって変換された目的変数は、説明変数の一次結合で表現

    atm_09_td
    atm_09_td 2013/07/12
  • Vensim:システムダイナミクス : 分析技術とビジネスインテリジェンス

    4月29 Vensim:システムダイナミクス カテゴリ:分析技術 システム科学は様々な自然現象や社会現象の複雑さに焦点を当てる。20世紀の学問を高度に専門化・分化させ得た要素還元主義の補完的・批評的立場をとるもので、その表現手段の一つがシステムダイナミクスだと認識している。システムダイナミクスの代表事例は、経済成長の限界をエネルギーの観点から洞察した成長の限界など。Vensimは価格的にもマニュアル的にも個人での導入の敷居が低いように感じた。 システムダイナミクスの特徴は、因果構造を視覚的に表現できること、その中にループ構造(鶏と卵)が含められること、因果の時間遅れを表現できることである。このような特徴を利用すれば、たとえば、新規顧客(フロー)、既存顧客(ストック)、顧客流失(フロー)などを広告効果や口こみ、製品ライフサイクル、競合動向などと絡めてモデル化しシミュレーションしたくなる方は多

  • Pyomo:数理最適化モジュール : 分析技術とビジネスインテリジェンス

    1月12 Pyomo:数理最適化モジュール カテゴリ:分析技術 数理最適化モジュールPyomoの環境構築メモとチュートリアル事例の紹介。 ■Pyomo ドキュメント:https://software.sandia.gov/trac/coopr/wiki/Documentation ダウンロード:https://software.sandia.gov/trac/coopr/downloader/   ■インストール 環境:Max OS X ver10.7.5 ダウンロード:unix版をダウンロード インストール:解凍フォルダのなかの..scr/coore/setup.pyを実行(python setup.py install)  ※上記の実行でその他のサブフォルダも一括インストールされた その他:GLPK(数理最適化のソルバー)のインストール(参考) ■ConcreteModelの記述例 以

  • ランダムフォレストの評価と変数別寄与度 : 分析技術とビジネスインテリジェンス

    1月6 ランダムフォレストの評価と変数別寄与度 カテゴリ:分析技術 今回はランダムフォレストによるモデル構築と変数別の寄与度の表示方法をまとめる。高い予測精度が期待され、多数の説明変数が扱え並列処理が可能、そして各変数の予測への寄与度がわかると言われれば素敵な手法と思えてくる。 自分はCRMの中でも顧客行動理解を主戦場にしているので、精度追求よりも各変数の予測モデルへの寄与度を利用することが多い。もちろん回帰でも可能だが、カテゴリカル変数、連続変数を問わず定量化してくれるのは有難い。 特徴選択そのものだけだと、変数を除去した影響、つまり何かしらの問題の予測モデルの説明力がどこまで残っているのかを知るには別途作業をしなければいけない。そういう手間が省けるということもある。 以下にOrangeを用いたランダムフォレストの評価、各変数の寄与度の表示をまとめた。参考として分類は通常の決定木(ランダ

  • Python:アソシエーション分析 : 分析技術とビジネスインテリジェンス

    今回はPython Orangeを用いたアソシエーション分析についてまとめる。アソシエーション分析は、商品購買においてユーザがどのような組み合わせをしているかを探索する。そのため商品アイテム数が多い場合、情報量が圧縮され後工程の解釈がスマート化される。 分析結果は所謂、集計結果と変わらない。なので、ただ分析結果を出しても喜ばれる可能性は少ないのではないだろうか。興味を抱いてもらえる比較軸などを設定の上、ルール抽出をするのが良いと思う。 ■ライブラリ >>> import Orange >>> from pandas import * ■データ形式 一レコード一バスケットの横持ち形式。たとえば、ユーザの併買分析であれば、あるレコードはある顧客の購買商品一覧を表す。重複はさせない。 >>> market_basket = Orange.data.Tabel('./data/market_ba

  • Python:データマイニング事例 : 分析技術とビジネスインテリジェンス

    これからの記事の作成目標を立てるため、これまでの記事を整理した。これまではデータが収集されていることを前提に、それをどう処理するかといった観点から記事を書いてきた。これからは分析手法に加え、そもそもどうやってデータを収集するか、そして分析処理した結果をどう見せるかといった点も深めていきたい。また当然、分析はインテリジェンス活動の手段であって目的ではない。分析を目的化せず、より良い意思決定のツールとするための考察も深めたい。 データ操作と基礎統計 連続変数の基礎統計 散布図の作成 ヒストグラムの作成 Radviz Parallel Coordinates 質的変数の基礎統計 カイ2乗検定と可視化 データ操作Tips(作成予定)   統計解析とデータマイニング事例 回帰分析 回帰分析(ステップワイズ法) 回帰分析(予測値の付与) ロジスティック回帰分析 ポアソン回帰 一般化線形モデル(作成予定

  • 1