タグ

ブックマーク / blog.recruit.co.jp (4)

  • Kaggle TalkingData Fraud Detection コンペの解法まとめ(基本編) | リクルート

    のようになっています。 click_time以外はカテゴリカルデータで、始めから整数で表現(Label Encoding)されたものが与えられています。 これはデータとしては非常にシンプルでここからいかに情報を引き出すかがポイントとなります。 アンバランスな目的変数 以上を用いて予測する対象がis_attributedというアプリダウンロード有無の指標です。 is_attributedが1のデータは広告クリック後にアプリがダウンロードされたクリックイベント、0のデータはそうでないものです。 約1.8億件の訓練データ全体に対してis_attributed=1のデータは50万件弱で、割合にして約0.2%と非常に少ないです。 このように、目的変数の分布がアンバランスであることがこのコンペの特徴のひとつです。 ちなみにアプリがダウンロードされた時刻attributed_timeも与えられていますが

  • kaggle初心者の私が3ヶ月でソロゴールドを獲得した方法 | リクルート

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら こんにちは。今年2018年4月より新卒でRCOに入社した松田です。 kaggle というデータ分析のコンペティション運営サイトが昨今世間に注目されていますが、 今回 TalkingData AdTracking Fraud Detection Challenge において2月にkaggleを始めた私が単独で金メダル(ソロゴールド)を獲得できたのでそれまでにやったことなどをシェアしたいと思います。 図: kaggleサイト( https://www.kaggle.com/ )のプロフィール画面より 図: kaggleでの活動ログ。中2ヶ月はやってないので実質の活動期間は1ヶ月ほど コンペの具体的内容やテクニックの話は 別記事 にまとめたので、

    kaggle初心者の私が3ヶ月でソロゴールドを獲得した方法 | リクルート
  • Goのpackage構成と開発のベタープラクティス

    (images: github.com/egonelbre/gophers) こんにちは。 データエンジニアリンググループ(CETチーム)の寺下です。 自分の所属するCETチームでは今まで主にScalaPythonなどを使ってAPIや基盤を実装してきましたが、最近では徐々にGoによる実装も増えてきており、GAE/GKE上で番運用を行っています。 記事ではGoのプロダクトにおいてDDDライクなpackage構成で実装する際の注意点や、汎用的に通用するであろう実装のTipsについて書いていきます。 記事で紹介する例がベストプラクティスだというわけではありませんので、あくまで実装の一例程度に捉えて頂けると幸いです。 Goのアーキテクチャ Goは言語仕様がシンプルかつフォーマッタが強力なため、syntaxレベルでは開発者によってコードの品質がブレにくいというメリットがあります。 しかしなが

    Goのpackage構成と開発のベタープラクティス
  • Docker を使ったオープンソース CI の Drone を試しました | リクルート

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら エンジニアの kenkoooo です。オープンソース CI の Drone を GitHub Enterprise と連携させて使ってみました。 環境 以下の環境で構築しました。 Amazon Linux 2017.03 Docker version 17.03.1-ce docker-compose version 1.14.0 インストール 公式ドキュメント の通り1 、 drone:0.7 を docker-compose を使って起動します。以下のような docker-compose.yml を作成し, docker-compose コマンドによって起動します。 version: '2' services: drone-server

    Docker を使ったオープンソース CI の Drone を試しました | リクルート
    komlow
    komlow 2017/07/21
  • 1