タグ

2020年5月17日のブックマーク (3件)

  • pandasのcut, qcut関数でビニング処理(ビン分割) | note.nkmk.me

    ビニング処理(ビン分割)とは、連続値を任意の境界値で区切りカテゴリ分けして離散値に変換する処理のこと。機械学習の前処理などで行われる。 例えば、年齢のデータを10代、20代の層(水準)ごとに分けるといった処理などがある。 pandasでビニング処理(ビン分割)を行うにはpandas.cut()またはpandas.qcut()を使う。 pandas.cut — pandas 0.22.0 documentation pandas.qcut — pandas 0.22.0 documentation それぞれ、 等間隔または任意の境界値でビン分割: cut() 要素数が等しくなるようにビン分割: qcut() という違いがある。 ここでは、pandas.cut()およびpandas.qcut()の使い方として、以下の内容を説明する。 等間隔または任意の境界値でビニング処理: cut() 最大値

    pandasのcut, qcut関数でビニング処理(ビン分割) | note.nkmk.me
  • Category Encodersでカテゴリ特徴量をストレスなく変換する

    前回はfeaturetoolsを使って、簡単に特徴量の自動生成をする方法を記事にしたが、記事冒頭に記載しているCategoryEncodersの方が地味によく使っている。 いや、なんだったら当はこっちのCategoryEndodersの方が特徴量生成をする上では重要なんじゃないかとすら思っている。 これが該当する人は読むといいかも? 文字列がデータに入っているとモデルがエラーになるからいつも除外している 除外はしてないけど、数値にEncodeするのが毎回だるい、死にたい sklearn.preprocessingよ、なんでお前pd.DataFrameで投げたのにnp.arrayで返してくんねん!!! いや、待てと。そもそもなんでOneHotEncoderってクラス名のくせに、ダイレクトに文字からOnehotに展開してくれへんねん!!そこは気ぃ効かせてくださいよ! いや、待て待て。文字列を

    Category Encodersでカテゴリ特徴量をストレスなく変換する
  • 決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる - St_Hakky’s blog

    こんにちは。 決定木の可視化といえば、正直scikit-learnとgraphvizを使うやつしかやったことがなかったのですが、先日以下の記事をみて衝撃を受けました。そこで今回は、以下の解説記事中で紹介されていたライブラリ「dtreeviz」についてまとめます。 explained.ai dtreevizの概要 dtreevizとは より良い決定木の可視化を目指して作られたライブラリです。 解説記事 : How to visualize decision trees Github : GitHub - parrt/dtreeviz: A python machine learning library for structured data. Sample Imagesdtreeviz/testing/samples at master · parrt/dtreeviz · GitHub

    決定木の可視化ライブラリ「dtreeviz」が凄かったのでまとめる - St_Hakky’s blog