タグ

ブックマーク / qiita.com/kenmatsu4 (5)

  • Permutation Importanceを使って検証データにおける特徴量の有用性を測る - Qiita

    記事は、AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019のアドベントカレンダー 9日目の記事です。 Permutation ImportanceがScikit-Learnのversion0.22より導入されました。この手法はKaggleでも使われており1 、特徴選択に有用な方法です。記事ではこのPermutation Importanceの解説と、LightGBMで5-foldでCVしながら使ってみた例を紹介します。コードの全文はKaggle Kernelとして登録してありますので、コードだけサクっとみたい方はこちらをどうぞ。 1. Permutation Importanceとは Permutation Importanceとは、機械学習モデルの特徴の有用性を測る手法の1つです。よく使われる手法にはFeature Imp

    Permutation Importanceを使って検証データにおける特徴量の有用性を測る - Qiita
  • NGBoostを使って分布を予測してみた - Qiita

    GBDTで予測分布が出せると話題のNGBoostを試してみましたので、備忘録がわりに投稿します。実際に動かしてみたい方はこちらを参考にしてください。 所感 modelチューニングをほぼしていない状態かつ、今回の小さいデータセットでは精度はほぼ同じ。 分布が算出できるのは使いどころがあるかもですね。 インポート あとでNGBoostとLightGBMをちょっと比較するのでlightgbmもインポートしておきます。 # ngboost from ngboost.ngboost import NGBoost from ngboost.learners import default_tree_learner from ngboost.scores import MLE from ngboost.distns import Normal, LogNormal # lightgbm import li

    NGBoostを使って分布を予測してみた - Qiita
  • EMアルゴリズム徹底解説 - Qiita

    ブログは、混合ガウス分布を題材に、EMアルゴリズムという機械学習界隈では有名なアルゴリズムを丁寧に解説することを目的として書いています。 また、この記事は、「数学とコンピュータ Advent Calendar 2017」の24日目の記事です。 そして長いです。 1. はじめに 観測した確率変数 $X$ をよく表現する、モデル $p(x|\theta)$ のパラメータを求めることが確率分布の推定ではよく行われます。つまり最尤法ですね。より複雑な分布になるとその分布の構造に潜在変数(Latent Variable) $Z$ があると仮定してモデル化を行うと、シンプルな組み合わせで $X$ の分布を表現できることがあります。今回扱う混合ガウス分布もその一つです。 のちに説明しますが、データセットの種別を完全データ集合と不完全データ集合に分けた場合、不完全データ集合に属するようなデータセットはデ

    EMアルゴリズム徹底解説 - Qiita
  • 【Qiita API】[統計学•機械学習] 今までの投稿記事のまとめと分析やってみた。 - Qiita

    主に統計学、機械学習データ分析関連の記事で、Qiitaへ投稿し始めて半年くらいになりました。ちょっと今までの記事をQiita APIを使いながら振り返ってみようと思います。(以下2015/8/10時点のデータから算出) 最初にデータを眺めて、その次にそれらの内容を生成したPythonコードと、PythonからQiita APIを使う方法の解説をします。 1.データを眺める 投稿記事のストック数順 上位5位で73%を占めていますね。人気記事は偏るのですね・・・。 最下位の「ピザで理解する分数の割り算の意味」とか個人的には結構気に入っているのですが、全然ストックされませんね ストック数 割合(%) 累積(%) タイトル

    【Qiita API】[統計学•機械学習] 今までの投稿記事のまとめと分析やってみた。 - Qiita
  • 【PyStan】Graphical LassoをStanでやってみる。 - Qiita

    こんにちは、久しぶりにブログを書く@kenmatsu4です。 Stan Advent Calendarの23日目の記事を書きました。 今回のブログでは、Graphical Lassoという、L1正則化をかけた精度行列(分散共分散行列の逆行列)を推定する手法をStanを用いてやってみようというものです。コードの全文はGitHubにアップロードしています。 1. テスト用データの生成 まず、多変量正規分布に従う乱数を生成します。 今回は下記のような平均、分散をもつ6次元のデータを300個生成します。 そして無理やり$x_6$と$x_4$、さらに$x_6$と$x_5$に相関を持たせ、$x_4$と$x_5$が間接相関を持つようにします。これはもともと$x_4$と$x_5$がなかったものの、$x_6$の影響を受けて$x_6$の変動と連動して$x_4$と$x_5$の値も動くので来相関がない変数同士が

    【PyStan】Graphical LassoをStanでやってみる。 - Qiita
  • 1