Hiro_Matsunoのブックマーク - はてなブックマーク

Permutation Importanceを使って検証データにおける特徴量の有用性を測る - Qiita

本記事は、AI道場「Kaggle」への道 by 日経 xTECH ビジネスAI① Advent Calendar 2019のアドベントカレンダー 9日目の記事です。 Permutation ImportanceがScikit-Learnのversion0.22より導入されました。この手法はKaggleでも使われており1 、特徴選択に有用な方法です。本記事ではこのPermutation Importanceの解説と、LightGBMで5-foldでCVしながら使ってみた例を紹介します。コードの全文はKaggle Kernelとして登録してありますので、コードだけサクっとみたい方はこちらをどうぞ。 1. Permutation Importanceとは Permutation Importanceとは、機械学習モデルの特徴の有用性を測る手法の1つです。よく使われる手法にはFeature Imp

Hiro_Matsuno 2019/12/17

リンク

NGBoostを使って分布を予測してみた - Qiita

GBDTで予測分布が出せると話題のNGBoostを試してみましたので、備忘録がわりに投稿します。実際に動かしてみたい方はこちらを参考にしてください。所感 modelチューニングをほぼしていない状態かつ、今回の小さいデータセットでは精度はほぼ同じ。分布が算出できるのは使いどころがあるかもですね。インポートあとでNGBoostとLightGBMをちょっと比較するのでlightgbmもインポートしておきます。 # ngboost from ngboost.ngboost import NGBoost from ngboost.learners import default_tree_learner from ngboost.scores import MLE from ngboost.distns import Normal, LogNormal # lightgbm import li

Hiro_Matsuno 2019/10/23

リンク

EMアルゴリズム徹底解説 - Qiita

本ブログは、混合ガウス分布を題材に、EMアルゴリズムという機械学習界隈では有名なアルゴリズムを丁寧に解説することを目的として書いています。また、この記事は、「数学とコンピュータ Advent Calendar 2017」の24日目の記事です。そして長いです。 1. はじめに観測した確率変数 $X$ をよく表現する、モデル $p(x|\theta)$ のパラメータを求めることが確率分布の推定ではよく行われます。つまり最尤法ですね。より複雑な分布になるとその分布の構造に潜在変数(Latent Variable) $Z$ があると仮定してモデル化を行うと、シンプルな組み合わせで $X$ の分布を表現できることがあります。今回扱う混合ガウス分布もその一つです。のちに説明しますが、データセットの種別を完全データ集合と不完全データ集合に分けた場合、不完全データ集合に属するようなデータセットはデ

Hiro_Matsuno 2017/12/24

リンク

【Qiita API】[統計学•機械学習] 今までの投稿記事のまとめと分析やってみた。 - Qiita

主に統計学、機械学習、データ分析関連の記事で、Qiitaへ投稿し始めて半年くらいになりました。ちょっと今までの記事をQiita APIを使いながら振り返ってみようと思います。(以下2015/8/10時点のデータから算出) 最初にデータを眺めて、その次にそれらの内容を生成したPythonコードと、PythonからQiita APIを使う方法の解説をします。 1.データを眺める投稿記事のストック数順上位5位で73%を占めていますね。人気記事は偏るのですね・・・。最下位の「ピザで理解する分数の割り算の意味」とか個人的には結構気に入っているのですが、全然ストックされませんねストック数割合(%) 累積(%) タイトル

Hiro_Matsuno 2017/01/05

リンク

【PyStan】Graphical LassoをStanでやってみる。 - Qiita

こんにちは、久しぶりにブログを書く@kenmatsu4です。 Stan Advent Calendarの23日目の記事を書きました。今回のブログでは、Graphical Lassoという、L1正則化をかけた精度行列(分散共分散行列の逆行列)を推定する手法をStanを用いてやってみようというものです。コードの全文はGitHubにアップロードしています。 1. テスト用データの生成まず、多変量正規分布に従う乱数を生成します。今回は下記のような平均、分散をもつ６次元のデータを300個生成します。そして無理やり$x_6$と$x_4$、さらに$x_6$と$x_5$に相関を持たせ、$x_4$と$x_5$が間接相関を持つようにします。これはもともと$x_4$と$x_5$がなかったものの、$x_6$の影響を受けて$x_6$の変動と連動して$x_4$と$x_5$の値も動くので本来相関がない変数同士が

Hiro_Matsuno 2016/12/24

リンク

はてなブックマーク

タグ

ブックマーク / qiita.com/kenmatsu4 (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス