タグ

ブックマーク / blog.recruit.co.jp (2)

  • kaggle初心者の私が3ヶ月でソロゴールドを獲得した方法 | リクルート

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら こんにちは。今年2018年4月より新卒でRCOに入社した松田です。 kaggle というデータ分析のコンペティション運営サイトが昨今世間に注目されていますが、 今回 TalkingData AdTracking Fraud Detection Challenge において2月にkaggleを始めた私が単独で金メダル(ソロゴールド)を獲得できたのでそれまでにやったことなどをシェアしたいと思います。 図: kaggleサイト( https://www.kaggle.com/ )のプロフィール画面より 図: kaggleでの活動ログ。中2ヶ月はやってないので実質の活動期間は1ヶ月ほど コンペの具体的内容やテクニックの話は 別記事 にまとめたので、

    kaggle初心者の私が3ヶ月でソロゴールドを獲得した方法 | リクルート
  • Kaggle TalkingData Fraud Detection コンペの解法まとめ(基本編) | リクルート

    のようになっています。 click_time以外はカテゴリカルデータで、始めから整数で表現(Label Encoding)されたものが与えられています。 これはデータとしては非常にシンプルでここからいかに情報を引き出すかがポイントとなります。 アンバランスな目的変数 以上を用いて予測する対象がis_attributedというアプリダウンロード有無の指標です。 is_attributedが1のデータは広告クリック後にアプリがダウンロードされたクリックイベント、0のデータはそうでないものです。 約1.8億件の訓練データ全体に対してis_attributed=1のデータは50万件弱で、割合にして約0.2%と非常に少ないです。 このように、目的変数の分布がアンバランスであることがこのコンペの特徴のひとつです。 ちなみにアプリがダウンロードされた時刻attributed_timeも与えられていますが

  • 1