タグ

mahler-5のブックマーク (14,409)

  • 決定木の特徴量重要度の計算方法 – TauStation

    概要 scikit-learnのDecisionTreeClassificationモデルにfeature_importances_というパラメーターがある。このパラメーターは1次元配列で、特徴量番号に対する重要度が実数で格納されている。 このfeature_importances_について、公式ドキュメントでは以下のように書かれている。 The importance of a feature is computed as the (normalized) total reduction of the criterion brought by that feature. It is also known as the Gini importance. ~特徴量の重要度は、対象とする特徴量から得られた基準値の減少分の(正規化された)合計値。ジニ重要度としても知られている。~ と書かれているが

  • Random Forestで計算できる特徴量の重要度 - なにメモ

    (pixabay.comより) 1.背景とか Random Forest[1]とは、ランダムさがもつ利点を活用し、大量に作った決定木を効率よく学習させるという機械学習手法の一種です。SVMなどの既存の手法に比べて、特徴量の重要度が学習とともに計算できること、学習が早いこと、過学習が起きにくいこと(追記注釈1)などの利点が挙げられます。Kinectの姿勢推定に使われているらしいです。 最近、Random Forestをカジュアルに使う例が多く(特にうちの研究室)、一部パラメータやら出力やらがわからない人も多いと思います。使い方はTJOさんの資料[2]を読んでもらえれば理解できると思うし、詳細は波部先生の資料[3]をよんでもらえればわかると思います。 それで、いろいろな日語の資料をいくら読んでも、Random Forestがもつ特徴の1つである、特徴量の重要度の詳細に関してはほとんどノータッ

    Random Forestで計算できる特徴量の重要度 - なにメモ
  • Feature Importanceを知る – MIIDAS Science Blog

    こんにちは。kzです。 世の中ではやはり解釈性が重要らしいです。 shap値で解釈する前にpermutation-importanceを知る 前回、SHAP含めてモデル解釈の指標についていくつか触れました。やはり一度では僕は残念ながら理解できないので復習も含めて今回この記事を書きます。 前回の復習 上記のリンク先が前回の記事になります。 Permutation ImportancePartial DependenceLIMESHAP 雑におさらいするとPIは対象の変数をシャッフルして精度の変化からその変数の影響力を見る手法。PDは対象の変数以外を周辺化で消すことによってその変数のみの影響力を見る手法。LIMEは対象の入力データ周辺でブラックボックスモデルを線形近似しその重みでそれぞれの変数の寄与具合を見る手法。SHAPはLIMEのモデルに複数の制約(Consistencyなど)を与えてでき

  • ミンキーのナイトメアー・ビフォア・クリスマス

    まずは、擬似データの作成から。 stanを使い、モデルを2つ試しました。 モデル1: 広告効果をベクトルで表現する ################################################## transformed parameters { alpha[i] = mu[i] + c1[i]*ad_flg[i]; } model { mu[i] ~ normal(mu[i-1], s_w); c1[i] ~ normal(2*c1[i-1]-c1[i-2], s_c1); y[i] ~ normal(alpha[i], s_v); } ################################################## mu: 水準 今日の水準 = 昨日の水準 c1: 広告効果 広告効果は滑らかであるという仮定から 今日の水準 - 昨日の水準 = 昨

    ミンキーのナイトメアー・ビフォア・クリスマス
  • 【2-3】Rで数値を複数のカテゴリーに分類するifelse関数、case_when関数、cut関数を紹介します : 独学で始める統計×データサイエンス

  • stringrを使って文字列処理をやってみる

    文字列を操作するパッケージ stringiパッケージのwrapper 元は違ったけど“i”の性能がよかったから Hadley Wickham謹製 特徴 baseの関数群より処理が速い 関数名が“str_”で始まってる 主な文字列処理はこれひとつでOK “%>%”で連鎖しやすい! インストール CRANからインストール install.packages("stringr") GitHubからインストール devtools::install_github("hadley/stringr") githubinstallでもOK githubinstall::githubinstall("stringr") 参考資料 stringr - RDocumentation R Documentationというサイトにあるパッケージ紹介サイト Helpの内容をベースに,サイト内で実際にコードが試せます {

  • VARそして時系列因果性分析の復習 - 渋谷駅前で働くデータサイエンティストのブログ

    「新型コロナウイルス感染症における治療の進展(令和2年10月29日に開催された第13回新型コロナウイルス感染症対策分科会事務局提出資料を基に内閣官房・内閣府作成)」という資料が世間で物議を醸しているようです。ただ、これを見ていて僕が個人的に気になったのは、その議論の内容や結論ではなく、「グレンジャー(Granger)因果」が使われているという点でした。 経済・ファイナンスデータの計量時系列分析 (統計ライブラリー) 作者:竜義, 沖発売日: 2010/02/01メディア: 単行Time Series Analysis 作者:Hamilton, James D.発売日: 1994/01/11メディア: ハードカバー 以前このブログでも一通り計量時系列分析を取り上げて一生懸命沖やHamiltonで勉強しながらシリーズ記事を書いたものですが、その時の記憶から言えば「Granger因果って

    VARそして時系列因果性分析の復習 - 渋谷駅前で働くデータサイエンティストのブログ
  • [確率思考の戦略論] 2.市場理解と予測に役立つ数学ツール

    import numpy as np import scipy from scipy.stats import binom %matplotlib inline %config InlineBackend.figure_format = 'svg' import matplotlib import matplotlib.pyplot as plt import seaborn as sns print("numpy version :", np.__version__) print("matplotlib version :", matplotlib.__version__) print("sns version :",sns.__version__) numpy version : 1.16.2 matplotlib version : 3.0.3 sns version : 0.9.0

    [確率思考の戦略論] 2.市場理解と予測に役立つ数学ツール
    mahler-5
    mahler-5 2020/11/26
  • 推薦システム-神嶌敏弘.pdf

  • RPubs - lesson12;林の数量化理論I,II,III

    Hide Comments (–) Share Hide Toolbars

  • 機械学習用データセット一覧(フリー素材)

    表示:著作権者の表示義務有り 営利目的(非営利):利用は非営利に限る 改変(改変禁止):一切の編集を禁じる 継承:頒布をする場合は、元のライセンスを受け継ぐ必要あり 人の行動のデータセット Google DeepMind Youtubeから収集した人間の行動に関するデータセット https://deepmind.com 利用条件:表示 人の行動のデータセット University of Central Florida サーフィン、メイク、髭剃り、などの認識用のデータセット http://crcv.ucf.edu/ 利用条件:特記無し。ページ中央部に連絡先が載っています。 動きのデータセット MIT-IBM Watson AI Lab モーションに関するデータセット。 人間以外にも、犬、パンダ、流れる水、アニメーションも含まれて居ます。 http://moments.csail.mit.ed

  • データ解析・マイニングとR言語

    私たち人間は毎日五感を通じて入力される膨大なデータを処理している。その中で最も多いのは、識別 (discrimination)、分類 (classification)、認識 (recognition) に関する処理である。例えば、新聞やなどを読むときには、視覚を通じて入力されたデータと学習したデータとの照合を行い、その文字の読み方、文字・単語の意味などを識別・認識する。識別に関する能力は人間のみならず、他の動物も持っている。 このような識別・認識に関することを機械的に実現する研究分野がパターン認識 (pattern recognition) である。パターン認識の典型的な例としては、郵便番号による手紙の自動分類や指紋・顔照合によるセキュリティ管理などがあげられる。 パターン認識は、コンピュータに事前に入力・記憶させたデータと識別すべきデータとの一致度を何らかのモデルによって計算する。その

  • 統計学入門−第18章

    18.3 正準スコア (1) 正準スコアによる判別 第2節の正準関数を用いて被検者ごとの正準スコアを求め、さらに群ごとの正準スコアの平均値を求めると次のようになります。 ○第1正準スコア z1=0.4032238 + 0.7327189x1 + 1.0384614x2 - 1.2873219x3 + 0.4419487x4 - 0.2632886x5 x1〜x5:検査項目1〜検査項目5 正準スコア平均値:正常群 mz1N=1.49109 疾患A群 mz1A=-1.53817 疾患B群 mz1B=0.680132 ○第2正準スコア z2=-1.7750462 - 0.288767x1 - 0.2208574x2 + 0.0380198x3 + 0.4348566x4 + 0.1750495x5 正準スコア平均値:正常群 mz2N=-0.431886 疾患A群 mz2A=-0.105258  

  • 判別分析(マハラノビス)

    トップページ→研究分野と周辺→システムの評価→ 例えば二次元で考えると、x軸y軸平面に多数の点が散らばり、これが幾つかのグループに分かれているとする。判別分析では、新たな点が与えられたとき、どのグループに属するかを判別する。 判別分析には、幾つかの方法があり、「サポートベクターマシン(SVM)」のように区分する線を引く方法もある。 ここでは、マハラノビス距離を用いた判別分析について述べる。 マハラノビス距離 最も一般的に使われる距離はユークリッド距離である。一次元(例えばx軸上)では、x座標の差がそのまま距離となる。 例えば二つのグループがあるとき、新たな点が与えられてどちらのグループに属するかを判別する際、新たな点のx座標と双方のグループの中心とのユークリッド距離を測り、短い方に属すると考える事も出来る。 しかし、この方法では、以下のような場合に問題となる。 青い点と赤い点の二つのグルー

  • RにTorchとLightGBMがやってきた - 渋谷駅前で働くデータサイエンティストのブログ

    これまで、RとPythonは両方使える人が少なくないながらも開発陣やコミュニティの思想が違うせいもあってか、「Rは統計学向け」「Python機械学習向け」的な住み分けが年々進み、特に機械学習関連の重要なフレームワーク・ライブラリ類はPython向けのみがリリースされることが多く、R向けにはリリースされないということが常態化している印象がありました。 そんな中、この9月にPython機械学習OSSを代表する2つのライブラリが相次いでR版パッケージを発表したので、個人的にはなかなか驚きました。中には「この2つがRに来たからにはもうPythonは触らない」と豪語する過激派の方もいらっしゃるようですが(笑)、それはさておき個人的な備忘録としてこの2つのR版パッケージを試してみた記録を記事として残しておこうと思います。 なお、以下のモデリングはほぼ何もチューニングを行っておりません。あくまでも「

    RにTorchとLightGBMがやってきた - 渋谷駅前で働くデータサイエンティストのブログ
  • R - ShinyによるWebアプリケーション作成: shinydashboard編 - Qiita

    はじめに システムの稼働状況とかミドルウェアの統計情報とかを手っ取り早く可視化するためにRを使ってみようということで書き始めた連載企画です。 Rでは、集計結果をサクッとWebアプリケーションとして作成するためのShinyというステキなパッケージが提供されています。Shinyを使えば、Webアプリケーションの知識があまり無くても、割と簡単にWebアプリが作れて、きれいなWebページでRによる集計結果を表示させることができます。 今回はshinydashboard編です。 関連記事 インフラ屋さんのためのR言語: 環境構築編 オフラインでのR環境構築 on RHEL z/OSにRを導入してみた インフラ屋さんのためのR言語: プログラミング編 R Markdownによるレポート生成 R MarkdownHTMLレポートをブラッシュアップ R - ShinyによるWebアプリケーション作成:

    R - ShinyによるWebアプリケーション作成: shinydashboard編 - Qiita
  • Shiny100本ノック!初級者から上級者まで使えるテクニックを一挙公開 - Np-Urのデータ分析教室

    Np-Urのデータ分析教室 オーブンソースデータなどWeb上から入手できるデータを用いて、RとPython両方使って分析した結果を書いていきます

    Shiny100本ノック!初級者から上級者まで使えるテクニックを一挙公開 - Np-Urのデータ分析教室
  • 判別分析とは|市場調査ならインテージ

    マーケティング用語集判別分析とは →【関連サービス】 データ解析サービス 「判別分析」とは、統計学上のデータ解析手法のひとつです。いくつかのグループ(群、カテゴリ)に分かれているデータを元に、それらが「どういう基準で分けられているのか」という関係を解析することで、分類されていないサンプルがどちらのグループに属するかを予測する手法です。 たとえば、ある商品の購入者・非購入者のデータを元に、どういう人がその商品を購入するのかを統計的に解析し、見込み客が購入するかどうかを予測する、といった場合に使われます。 判別分析は、判断材料や基準となるデータ、統計学的には「教師データ」と呼ばれるデータを基にした分析です。もともとは海外でR. A. Fisher が多変量分散分析のアイデアをベースに応用した分析手法ですが、日では第二次世界大戦後の混乱で刑務所があふれそうになった際、釈放する人を決めるために再

  • 数量化Ⅱ類

    判別分析+ 心理データ解析演習 2013/6/19 M1 宮坂まみ  Why 数量化理論? 数量化理論の誕生 2   林知己夫を中心として発展した  多変量解析の理論  林知己夫; 1974-1986年 統計数理研究所七代所長 3 数量化理論のプロフィール (統計数理研究所HPより)   サンプリング調査を勉強することになった林先生。  「標を増やせば必ず差が出るので,やらなくても分 かっていると感じたのである。」  「世の中には,“数学的に同じ”,“相関係数0”,“数 学的に独立なもの”は存在すると考える方がおかしいの である。しかし,これが統計的仮説の土台となっている のである。」  「このあたりで,従来から持っていた私の“データ”な るものを大事にする考え方が私の志向する統計学の中で 固まりかけてきた。つまり,“データによる現象解析の ための統計的方法(データ

  • R -- 判別分析(ステップワイズ変数選択)

    判別分析(ステップワイズ変数選択)     Last modified: Aug 25, 2009 目的 ステップワイズ変数選択による判別分析を行う 使用法 sdis(data, group, stepwise=TRUE, P.in=0.05, P.out=0.05, predict=FALSE, verbose=TRUE) 引数 data 説明変数だけのデータフレーム group 群を表す変数(ベクトルではなく,1 列のデータフレームとして引用するほうがよい) stepwise ステップワイズ変数選択をするかどうか(デフォールトは TRUE) P.in Pin(デフォルトは 0.05) P.out Pout(デフォルトは 0.05,Pout ≧ Pin のこと) predict 個々の判別結果などを出力するかどうか(デフォルトは FALSE) verbose ステップワイズ変数選択の途中