leadscoring_workflow.md TreasureWorkflowでleadscoringを試してみる。 RandomForestを使用しCV確率を予測。 ユーザーを予測CV確率に応じてA,B,C,D,Fの5階級に分けをし、 各階級の人数をカウントするところまでをWorkflow化する。 dataset leads-and-customers.csv STEP1) データの前処理 hivemallでのRandomForestでは、 説明変数が量的変数であることを前提としているので、 quantify関数で質的変数に採番する必要がある。 ダミー変数を使うことも可能。 SELECT rowid() as rowid, converted as label, array(acquisition_channel,company_size,industry,is_manager2,da
