[B! xgboost] werdandiのブックマーク

werdandi id:werdandi

xgboostに関するwerdandiのブックマーク (11)

Rのおすすめパッケージ2019年版 | marketechlabo
Rのおすすめパッケージをアップデートしてまとめた。定番の分析手法をはじめ、可視化やデータ処理に便利なものなど、幅広く紹介した。中にはマストというものもあるし、意外と知られていないがインストールしておくと便利なものまで、使い方の例も挙げて説明している。ミドルウェア的なレイヤーのライブラリ（must） curl ファイルをwebからダウンロードするときに使う。データファイルやパッケージのダウンロードが発生する処理で内部的に使われるライブラリで、他のパッケージのインストールの際に同時にインストールされることが多く、意識されることは少ないパッケージ。たまに依存関係の問題でも解決されずに未インストールの場合があるので、明示的にインストールする必要がある。 read.csv('https://...') などのために必要。 devtools GitHubからのインストールなど。ほとんどがGitHu
werdandi 2019/07/11
パッケージ

Text

GUI

xgboost

ggplot
リンク
xgboost package のR とpython の違い - puyokwの日記
python と xgboost で検索をかけられている方も多く見受けられるので、R とほぼ重複した内容になりますが、記事にまとめておきます。python のxgboost のインストール方法はgithub を参考にされると良いと思います。github.com R とpython のxgboost を使う際に感じる違い R の利点視覚化(visualization) が強い自動化が簡単 early stopping が簡単に使える python の利点ハイパーパラメータのチューニングに hyperopt package が使用できる現状として、R のpackage を使う方がメリットが大きいと思います。まず、R の方から見ていきます。python でも主要な機能は実装されていますが、変数重要度を求めたときの視覚化が未実装で(計画はあるみたいです)、変数との対応も分かりにくいです。
werdandi 2019/07/11
xgboost

r

python

fromTw

data
リンク
Python: XGBoost を使ってみる - CUBE SUGAR CONTAINER
XGBoost (eXtreme Gradient Boosting) は勾配ブースティング決定木 (Gradient Boosting Decision Tree) のアルゴリズムを実装したオープンソースのライブラリ。最近は、同じ GBDT 系のライブラリである LightGBM にややお株を奪われつつあるものの、依然として機械学習コンペティションの一つである Kaggle でよく使われている。今回は、そんな XGBoost の Python バインディングを使ってみることにする。使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.2 BuildVersion: 18C54 $ python -V Python 3.7.2 もくじもくじ下準備乳がんデータセットを分類してみる学習過程を可視化する
werdandi 2019/07/11
xgboost

学習

python

機械学習

Scikit-learn
リンク
LightGBM 徹底入門 – LightGBMの使い方や仕組み、XGBoostとの違いについて
LightGBMとは LightGBMとは決定木アルゴリズムに基づいた勾配ブースティング（Gradient Boosting）の機械学習フレームワークです。LightGBMは米マイクロソフト社がスポンサーをしています。（勾配ブースティングの仕組みについては後述します）勾配ブースティングのフレームワークといえばXGBoostが有名です。両方とも勾配ブースティングのフレームワークですが、細かい部分で実装が異なります。XGBoostのリリースは2014年でしたが、LightGBMは後発で2016年にリリースされました。機械学習のコミュニティで世界的に有名なKDnuggetsによると、Kaggleで上位ランキングを取った半数以上もの勝者が「勾配ブースティング」を使った実績があると報じています。（参照：こちら）。それほど勾配ブースティングは注目度の高い機械学習手法であり、今日のデータ分析競技には
werdandi 2019/07/11
xgboost

学習

kaggle

データ

入門
リンク
Shapを用いた機械学習モデルの解釈説明 - Qiita
Shapとは Shap値は予測した値に対して、「それぞれの特徴変数がその予想にどのような影響を与えたか」を算出するものです。これにより、ある特徴変数の値の増減が与える影響を可視化することができます。以下にデフォルトで用意されているボストンの価格予測データセットを用いて、Pythonでの構築コードと可視化したグラフを紹介します。 Shapの概要図モデルの構築 XGBoostを使用します。 import xgboost import shap X,y = shap.datasets.boston() X_display,y_display = shap.datasets.boston(display=True)
werdandi 2019/07/11
shap

学習

xgboost

モデル

qiita
リンク
勾配ブースティングで大事なパラメータの気持ち - nykergoto’s blog
LightGBM や XGBoost などで使われている勾配ブースティングのパラメータについて、チューニングノウハウというよりもそのパラメータがどういう意味を持っているのか、に焦点をあててまとめて見ました。各ライブラリのパラメータすべては以下から確認できます。 lightGBM Parameter XGBoost Parameter NOTE: 以下では lightGBM のパラメータの名前で説明しています。微妙に名前が違うものがあるので適宜読み替えてください。勾配ブースティングについてざっくりと一般的な決定木では木はひとつだけで、その木に対してたくさんの分割ルールを適用していきます。勾配ブースティング木では、木をたくさん作ります。たくさん作る代わりに、一つ一つの木の分割をざっくりとしたものにします。そして作った木すべての予測の合計を使うことで、ひとつの木では表せないような複雑な
werdandi 2019/07/11
学習

ノード

xgboost

blog

分布
リンク
Kaggle Masterが勾配ブースティングを解説するよ · うっでぃの雑記帳
この記事は、Kaggle MasterであるBen GormanさんによるGradient Boosting Explainedを和訳したものです。日本語でGradient Boostingの原理を解説した記事があまりなかったのですが、この記事が非常にわかりやすかったので、ご本人に和訳の許可をお願いしたところ、快諾していただきました。Benさん、ありがとうございます。この記事が日本人Kagglerの助けになれば幸いです。また、この記事は以前Qiitaに投稿したものを改稿したものです。まえがき線形回帰がトヨタのカムリだとしたら、勾配ブースティングは UH-60ブラックホークヘリコプターでしょう。勾配ブースティングの実装の一つであるXGBoostはKaggleの機械学習コンペで長らく使われ、勝利に貢献し続けています。しかし残念なことに、（以前の僕を含め）多くの人がこれをブラックボック
werdandi 2019/07/11
xgboost

kaggle

gbm
リンク
SHAPでモデルの予測結果を説明する | CCT-recruit
こんにちは、エンジニアのtetsuです。どうしてモデルがこのような予測をしたのか、ということを説明することの重要性は近年ますます高まっているように思えます。これには予測結果の解釈をおこなうことで様々な知見を得たいという要求や、ブラックボックスのモデルは信用しづらいというのが理由に挙げられます。線形回帰や決定木といったモデルは予測結果に対する解釈をすることができますが、単純で表現力が乏しいです。一方でディープラーニングや決定木のアンサンブル学習などの複雑なモデルは表現力が高いですが、人間が解釈しようとするのは困難です。このような問題を解決するために近年は様々な手法が提案されています。今回はそれらの中の1つであるSHAP（SHapley Additive exPlanations)について簡単にご紹介します。SHAPは日本語だと「シャプ」のような発音のようです。なお、SHAPについては
werdandi 2019/07/11
あとで読む

xgboost

shap
リンク
Gradient Tree Boostingの理論を読み解く - Qiita
はじめに今回は、XGBoostなどの機械学習において根幹を成している理論、Gradient Tree Boostingについて理解してみる。 XGBoostはKaggleなどのコンペで愛用されている手法だが、その理論を知らずに頼るのはなんか気持ち悪いし、サイエンスではない。また、理論を知ってこそ、それを活用することができると信じているので、一度ここでまとめて見たい。急がば回れである。ただし、あくまでこれは私が理解している限りを記述したメモ書きであることに注意していただきたい。なお、以下の内容は、XGBoostの論文のSection2を参考にしている。 Gradient Tree Boostingはアンサンブル学習の一つである。そもそも機械学習の目標は、汎化能力が高い学習器をデータから構築することであるが、その汎化能力を高めるためには以下２つの方針が考えられる：単一の学習器の精度を
werdandi 2019/07/11
あとで読む

gbm

xgboost
リンク
XGBoostのお気持ちをちょっとだけ理解するためのメモ - Qiita
現在、Kaggleにてよく使われる手法の一つにGBDT(Gradient Boosting Decision Tree)があります。さらにその種類の１つXGBoostはKagglerによりその効果を検証され非常に人気の高いアルゴリズム・実装です。このブログでは、XGBoostの論文からアルゴリズムを理解するための主要な部分、 TREE BOOSTING IN A NUTSHELL 2.1 Regularized Learning Objective 2.2 Gradient Tree Boosting を丁寧に解説することを目的に書いています。また、ここで解説した理論、アルゴリズムについてはLightGBMにおいてもほぼ同じと思いますので、合わせて参考になるかと思います。おことわりしかしながら、最初におことわりをさせていただくのですが、markdownやtexでキレイにまとめる余裕が
werdandi 2019/03/28
あとで読む

kaggle

qiita

アルゴリズム

GitHub

gbm

xgboost
リンク
XGBoostExplainerが何をやっているか調べる（４．モデルから予測ルールを抽出する） - 琥珀色呑んだくれ備忘録
目的関連シリーズ準備：XGBモデルの学習と予測学習したxgboostのルール抽出 xgb.model.dt.tree()によるパスの抽出予測値の再分配 Cover (H)の再計算勾配(G)とweightの再分配各ルールのインパクトの集計（Tree Breakdown）目的今回は、xgboostExplainerによって、xgboostの学習済みモデルからルールがどうやって抽出されているかにフォーカスし、適宜xgboostの資料を見ながら追いかける。（参考資料） Introduction to Boosted Trees (スライドPDF) XGBoost: A Scala ble Tree Boosting System 関連シリーズとりあえず使ってみる予測結果の可視化プロセスをstep-by-stepで実行する予測結果を分解再構成するプロセスをstep-by-ste
werdandi 2019/03/15
あとで読む

xgboost

r

ノード

モデル

data

Model
リンク
1