タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

kaggleに関するkomlowのブックマーク (11)

  • Kaggle TalkingData Fraud Detection コンペの解法まとめ(基本編) | リクルート

    のようになっています。 click_time以外はカテゴリカルデータで、始めから整数で表現(Label Encoding)されたものが与えられています。 これはデータとしては非常にシンプルでここからいかに情報を引き出すかがポイントとなります。 アンバランスな目的変数 以上を用いて予測する対象がis_attributedというアプリダウンロード有無の指標です。 is_attributedが1のデータは広告クリック後にアプリがダウンロードされたクリックイベント、0のデータはそうでないものです。 約1.8億件の訓練データ全体に対してis_attributed=1のデータは50万件弱で、割合にして約0.2%と非常に少ないです。 このように、目的変数の分布がアンバランスであることがこのコンペの特徴のひとつです。 ちなみにアプリがダウンロードされた時刻attributed_timeも与えられていますが

  • kaggle初心者の私が3ヶ月でソロゴールドを獲得した方法 | リクルート

    リクルートデータ組織のブログをはじめました。※最新情報はRecruit Data Blogをご覧ください。 Recruit Data Blogはこちら こんにちは。今年2018年4月より新卒でRCOに入社した松田です。 kaggle というデータ分析のコンペティション運営サイトが昨今世間に注目されていますが、 今回 TalkingData AdTracking Fraud Detection Challenge において2月にkaggleを始めた私が単独で金メダル(ソロゴールド)を獲得できたのでそれまでにやったことなどをシェアしたいと思います。 図: kaggleサイト( https://www.kaggle.com/ )のプロフィール画面より 図: kaggleでの活動ログ。中2ヶ月はやってないので実質の活動期間は1ヶ月ほど コンペの具体的内容やテクニックの話は 別記事 にまとめたので、

    kaggle初心者の私が3ヶ月でソロゴールドを獲得した方法 | リクルート
  • Kaggleで使えるpandasテクニック集 - 天色グラフィティ

    PythonでKaggleなどのデータ分析を行う際、pandasでゴリゴリ作業をすることが多いかと思います。 最近知って「めっちゃ便利やん!」ってなったものをまとめておきたいと思います。 全部の関数にドキュメントへのリンクを付けたので参考にしてください。 今回も検証にはTitanicのデータセットを用います。また、文中でのdf.hoge()はpandasのDataFrameのメソッドであることを、pd.hoge()はpandasの関数であることを表します。 df = read_csv('input/train.csv', index_col=0) print(df.shape) df.head() 最低限押さえておきたいやつら まずはここから。 10 Minutes to pandas よく使うやつら。詳しい解説は省略するので、ドキュメントのリンク先を見てください。 関数 内容 リンク d

    Kaggleで使えるpandasテクニック集 - 天色グラフィティ
  • Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと - にほんごのれんしゅう

    Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと わたしの経験した、最初のKaggleの一歩と、実際にKaggleに対するモチベーションがそれなりに加熱するまでにやったことと、息切れしない心の持ち方です。 KaggleがDataScienceに携わるものの価値の可視化の基軸の一つになっていますが、まだ取り掛かれない or 心が折れそう人のために、私に必要だったきっかけと、私が行ったモチベーションコントロールを含めて記します。 まだまだkaggleは弱いですが、継続的に、日々の生活の中に組み入れるまでが大変でした。 目次 既存の機械学習関連の技術者にとってのKaggleの認識のあり方 すでに機械学習アルゴリズムを知っているがやるべきか 競技プログラミングは業務コーディングで役に立たないロジックが、Kaggleの業務のデータ分析との関係にも成り立つか 挑

    Kaggleを取り掛かるまでにやったこととと、モチベーションの維持のために必要だったこと - にほんごのれんしゅう
  • Kaggle Tokyo Meetup #4 開催レポート - tkm2261's blog

    こんにちは。tkm2261です。 今日は2018/5/12に開催したKaggle Tokyo Meetup #4の模様をレポートします。 connpass.com このmeetupも4回目となり、今回はGoogle様からサポートを頂いた事もあり、かなり大規模なmeetupになりました。 今回からMaster枠とExpert枠を設けたり、Youtube Liveをしたり、人数を増やしたりと色々新しいことを試しています。 さらに自分で言うのもアレですが超豪華なスピーカーになっています。 日の見どころは 競プロ界の神tourist wataさん 金メダル2個のnovice pocketさん 苦労人masterのterekaさん scikit-learn生みの親davidCさん LTなのに一ヶ月前から資料作ってたjackさん 2 stage制の鬼osciiartさん talkingdata覇者f

    Kaggle Tokyo Meetup #4 開催レポート - tkm2261's blog
  • Kaggleをはじめたので対策や攻略法についてのブックマーク | Futurismo

    Kaggle# Kaggle: Your Home for Data Science Kaggle - Wikipedia Kaggle モチベーション# 機械学習系コンペの意義 | threecourse’s memo 『データサイエンティストとマシンラーニングエンジニアはKaggleやれ』というのは何故なのか - Qiita データサイエンティストを目指して勉強するなら、Kaggleからはじめよう - Qiita はじめの一歩# Kaggle事始め - Qiita The Beginner’s Guide to Kaggle チュートリアル# Titanic: Machine Learning from Disaster | Kaggle House Prices: Advanced Regression Techniques | Kaggle Digit Recognizer | K

    Kaggleをはじめたので対策や攻略法についてのブックマーク | Futurismo
  • 月刊: Kaggleは役に立たない | threecourse's memo

    Kaggle Meetupのネタにでも、ふわっとした文章を書いてみる。 個人の意見です&ここ1-2年の状況変化は追えていないかも。 (追記:タイトルは「月刊競技プログラミングは役に立たない」という競プロ方面のネタから来ています) どうでもいい技術、どうでもいくない技術 Kaggleで勝つための技術を書き連ねてみる: Python, R, ライブラリの使い方 特徴量の作成 データについての考察、EDA モデルの使い方、パラメータチューニング 評価指標についての考察 DiscussionやWinner’s interviewを読む英語力 柔軟に作業や分析を回すためのクラス・ワークフロー・ログなどの実装 GCP, AWS, BigQueryといったサービスの運用 論文を読んで手法を参考にしたり実装したりする力 折れない心 改めてまとめてみると普通に学んで損のないものばかりな気がしてきた。 ただ、

  • kaggleのチュートリアル本を書きました!今後更に更新して、チュートリアルを作り上げます!|currypurin|note

    --- 【お知らせ】 第4版の紙のは、「とらのあな」にて通信・店頭販売しております。 希望の方は、とらのあなで購入ください。 はじめまして。カレーちゃんと申します。▶︎Twitterアカウント @currypurin ▶︎ブログ 概要説明技術書典4という技術同人誌の即売会で「kaggleのチュートリアル」を販売し、300冊完売という結果を達成することができました。 その後、私は専業のKagglerになり日々kaggleに取り組んでいます。 2019年9月に開催される、技術書典7において更新版のkaggleのチュートリアル第4版を販売します。このnoteではそのkaggleのチュートリアル第4版を販売いてします。 第4版は次のサポート ページで、コードとyoutubeでの説明動画への集約を行なっています。 サポートページからリンクが貼ってあるkernelのコードと、youtube動画のみで

    kaggleのチュートリアル本を書きました!今後更に更新して、チュートリアルを作り上げます!|currypurin|note
  • 社内でKaggleの布教活動をやっている話 - yasuhisa's blog

    最近、社内勉強会で機械学習についてエンジニアに説明する機会があり、その際にKaggleについても説明しました。一方で うーん、「Kaggler はパラメータチューニングやアンサンブル等の自明でインクリメンタルな改善『しか』できない」というような誤解はどうやって解いていけばいいんだろう。— im132nd (@im132nd) 2018年4月4日 という話もあり、(特にデータサイエンティスト以外の職種の人が)Kaggleをやる意義/メリットについてまとめてみました。ガッと勢いで書いたので、項目に結構被りがあります。なお、書いている人はKaggleほぼ初心者であまり説得力がないです。Kaggle Masterの人がもっといいエントリを書いてくれるのを期待しています、議論の叩き台エントリです!! Kaggleをやる意義/メリット 様々なデータセットを触ることができる kernelでデータ分析

    社内でKaggleの布教活動をやっている話 - yasuhisa's blog
  • Kaggle事始め - Qiita

    はじめに データ解析の情強な方なら、Kaggle はご存じだと思います。データ解析のSkillを競うCompetitionサイトで、与えられたテーマ(Dataset)に対して、世界中のデータ解析有識者が様々なデータ解析手法を駆使してより高い正答率(Score)を競い合う場所です。 が、Kaggleそのものは知っていても、どうやればKaggleに実際に参加できてランキングに加われるのかは知らない、と言う方は多いと思います。この記事では、とりあえずKaggleの何らかのCompetitionに参加して、解析結果をSubmitして、(その時点の)順位/Scoreを確認するまでの操作手順/流れをチラ裏したいと思います。 KaggleのWeb pageは色々な情報/Linkが詰まっているので、ぱっと見取っ付きにくいかもしれませんが、ポイントをつかめば参加してScoreを付けて貰う所まではとても簡単で

    Kaggle事始め - Qiita
  • KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog

    週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。 参加の動機 目標感: 頑張りすぎずに上位10%以内に入る 試行錯誤 AthenaとRedashによる探索的データ解析 ベンチマークをまず超える 線形分類器でシンプルな特徴量 時系列要素を忘れていて過学習発生 特徴量エンジニアリン

    KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
  • 1