タグ

2022年11月29日のブックマーク (2件)

  • 決定木系アルゴリズムはなぜ特徴量同士の四則演算を明示的に入れる必要があるか(実験編)|CO-WRITE

    どうも、最近SmartnewsでAIのニュースばかり見ていたら、歌手のAIさんの記事がレコメンドされてきた分析官の岡部です。 この記事では、決定木系アルゴリズムを使用するとき、特徴量同士の四則演算が有用となるケースがあることを、簡単な実験で確認しました。 その結果をまとめていきます。 事の発端 Kagglerに人気のGBDTをはじめとした決定木系のアルゴリズムは非常に強力で、 弊社の製品である自動機械学習ツールForecastFlowでも採用しています。 さて、入社まもないあるとき、そのForecastFlowに突っ込むデータセットを用意していると上司の方から、「この特徴量とこの特徴量の足し算は効きそうだね」と言われ、???となりました。 (え?足し算って、、、情報増えてないから、全く意味ないんじゃないの???) などと思ったんですね。 あれから時は経ち、数多のモデルを作っていくうちにだん

    決定木系アルゴリズムはなぜ特徴量同士の四則演算を明示的に入れる必要があるか(実験編)|CO-WRITE
  • lightgbm カテゴリカル変数と欠損値の扱いについて+α - てばさきさんの自由研究

    一発目から自由研究をしていないのですが、ご容赦ください。笑 lightgbmのカテゴリカル変数の扱い等がチーム内で話題になったため、メモも兼ねてまとめました。 題 話題となったのは、以下の3点です。 label encoding1して入力するのと、カテゴリカル変数として入力する違い trainに存在しないが、testには存在するカテゴリーの扱い 欠損値の扱い これより、順に説明します。 1. label encoding[^1]して入力するのと、カテゴリカル変数として入力する違い label encodingして入力すると、普通の数値型変数と同様に閾値との大小関係で判定されます。カテゴリカル変数として入力すると、marugariさんがブログで紹介しているように変数A (is or is not) category_xで判定されるようです。ただ、カテゴリーに順序性がある場合は、カテゴリカル

    lightgbm カテゴリカル変数と欠損値の扱いについて+α - てばさきさんの自由研究