タグ

ブックマーク / knknkn.hatenablog.com (3)

  • GBDTのハイパーパラメータの意味を図で理解しつつチューニングを学ぶ - まずは蝋の翼から。

    この記事は何か lightGBMやXGboostといったGBDT(Gradient Boosting Decision Tree)系でのハイパーパラメータを意味ベースで理解する。 その際に図があるとわかりやすいので図示する。 なお、ハイパーパラメータ名はlightGBMの名前で記載する。XGboostとかでも名前の表記ゆれはあるが同じことを指す場合は概念としては同じ。ただし、アルゴリズムの違い(Level-wiseとLeaf-wise)によって重要度は変わるし、片方にのみ存在するハイパーパラメータもあるので注意。 lightgbm.readthedocs.io また、記事の構成などは以下を大いに参考にさせていただいた。 nykergoto.hatenablog.jp 網羅的には以下の記事もよさげ qiita.com この記事は何か そもそもGBDTとは ハイパーパラメータ どのような決定木

    GBDTのハイパーパラメータの意味を図で理解しつつチューニングを学ぶ - まずは蝋の翼から。
  • pandasのMultiindexを整理する - まずは蝋の翼から。

    この記事はなにか こういうデータフレームを こういう形にしたい。 以下の記事の「集約」という節でpandasのMultiindexをもとの形式に戻すやり方を書いたがもうちょっとわかりやすい方法があったのでメモ。ただし、メソッドチェーンで完結していない。 knknkn.hatenablog.com 以下のようなflightsデータで考える。 これを集約してはじめに載せた以下のようなMultiindexにする airline_info = flights.groupby(['AIRLINE', 'WEEKDAY'])\ .agg({'DIST':['sum','mean'], 'ARR_DELAY':['min','max']})\ .astype(int) airline_info.head() 列の対処 列について、各列毎の集約関数列が入っている。これを列名_集約関数名という列名にまとめた

    pandasのMultiindexを整理する - まずは蝋の翼から。
  • 特徴量作成を楽にするライブラリいくつかまとめて試す① featuretools - まずは蝋の翼から。

    この記事はなにか 何を書かないか featuretools 複数テーブルのあるデモデータで試す 1. EntitysetというER的なデータとデータ関係が入ったオブジェクトを作成 集計/変換処理をする 1テーブルのデータで試す 参考 この記事はなにか 機械学習の特徴量を作るときに色々とめんどくさい部分を楽にできるライブラリの紹介。 具体的には以下を紹介する、 featuretools xfeat ①では既存特徴量を四則演算したり集約したり、date型の年部分のみ取り出すなど、既存特徴量をもとに色々加工するのに便利なライブラリfeaturetoolsについて。 機械学習において「とりあえず既存特徴量を四則演算/集約でいじくりまわす」だけでもそれなりに精度が上がる*1ことから、それらを脳死で作成しまくることはそれなりに有効だが、コードを書くのが面倒なことも多い。これを楽にできるのが featu

    特徴量作成を楽にするライブラリいくつかまとめて試す① featuretools - まずは蝋の翼から。
  • 1