Kaggle Masterが語るMachineLearning - TechLovers #1 https://sony.connpass.com/event/315090/ での登壇資料です。 コンペの流れとtips的な情報を主観強めで紹介しています。
Top 50 matplotlib Visualizations – The Master Plots (with full python code) A compilation of the Top 50 matplotlib plots most useful in data analysis and visualization. This list lets you choose what visualization to show for what situation using python’s matplotlib and seaborn library. Introduction The charts are grouped based on the 7 different purposes of your visualization objective. For examp
これはなに? Kaggleのテーブルデータコンペに参加するときに役立つ(と思う)Tipsを Kaggle Coursera の授業メモに色々追記する形でまとめたものです 自分で理解できている内容を中心にまとめました。各種資料の内容はまだまだ理解できていない内容が多く、今後も随時更新していきます(随時更新できるように勉強します)。 この記事に書いてあるTipsをどのように活かしたかはKaggle参戦記に書いたので、併せてどうぞ。 参考文献 主として以下の資料の内容をピックアップさせていただきました。引用を明記していない部分は(ほぼ100%) Kaggle Coursera の内容です。 Kaggle Coursera kaggle_memo by nejumiさん Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ Kaggle TalkingData F
はじめに コルモゴロフ-スミルノフ検定を利用した特徴量選択 コルモゴロフ-スミルノフ検定とは 特徴量選択にどう活用する? Kaggle Kernel おわりに はじめに えじさんの下記記事を読んで「コルモゴロフ-スミルノフ検定を利用した特徴量選択」が気になりました。自分なりに簡単に手を動かしてみたので、備忘録としてまとめておきます。 amalog.hateblo.jp 元になったdiscussionの投稿はこちらです。 www.kaggle.com コルモゴロフ-スミルノフ検定を利用した特徴量選択 コルモゴロフ-スミルノフ検定とは Pythonでは「scipy.stats.ks_2samp」で実行できます。 docs.scipy.org This tests whether 2 samples are drawn from the same distribution. 日本語にすると「2つ
KaggleのElo Merchant Category Recommendationコンペに参加しました。 僕は@kasuminkoさん、@hirokasさんとチームを組んで、ラスト2週間だけ参加しました。結果から書くと、Public 221位からのPrivate 2220位という乱高下で儚く散りました。 手元に銀メダル相当のスコアを持っていたにもかかわらず、間違ったサブミットを選んでしまっており、とても悔しいです。 コンペの概要 上位解法 1st place solution (30CrMnSiA) 特徴量 モデル 5th place solution (Evgeny Patekha) 特徴量 モデル 7th place solution (senkin) 特徴量 モデル その他 11th place solution (Zakaria EL Mesaoudi) 特徴量 モデル その他
最近、Kaggle などのデータ分析コンペで使われることの多い Adversarial Validation という手法について調べたり考えていたので書いてみる。 もくじ もくじ 背景 Adversarial Validation 試してみる 下準備 二つのデータが同じ分布に由来するとき 二つのデータが異なる分布に由来するとき 異なる分布でそのまま分類してみる 検証用データに似ているものを取り出す 取り出したデータを使って学習してみる ラベルごとに似ているデータを取り出す どれだけ取り出して学習させれば良いのか Adversarial Validation の応用例 背景 Adversarial Validation という手法は、データ分析コンペに存在する、ある課題を解決するために考案された。 その課題とは、提供される複数のデータセットの分布が異なる場合に、いかにして正しく予測するかとい
本記事は、kaggle Advent Calendar 2018の4日目の記事です。 qiita.com はじめに 重要な視点 scikit-learnに用意されている関数 KFold StratifiedKFold GroupKFold ShuffleSplit GroupShuffleSplit StratifiedShuffleSplit TimeSeriesSplit 回帰問題の場合 必ずしも「Trust CV」ではない Adversarial Validation おわりに はじめに 本記事では、3日目の記事で重要性を説明したCross Validationについて、「良いCV」となるvalidationのデータセットはどのようなものか考えてみたいと思います。 upura.hatenablog.com この話題については、scikit-learnのドキュメンテーションが非常に充実
背景 参照 前提 RNN を利用した Encoder& Decoder MNP モデル 特徴 図 Attention 理解のキーポイント 重み PyTorch での Attention の実装例 コードの解説 問題とされた点 筆者の疑問点 間違いを見つけたら 背景 Quora Insincere Questions Classification | Kaggle というコンペで public kernel で使われていた PyTorch Attention 実装に pitfall があったのではという指摘 Common pitfalls of public kernels | Kaggle があった。それを発端に Attention を正しく理解できていないことが分かったのでここにまとめる。 参照 C5W3L08 Attention Model - YouTube Attention an
はじめに コンペ概要 データの種類とタスク 評価方法 提出方法 勉強になるkernelとdiscussion Stop the S@#$ - Toxic Comments EDA | Kaggle NB-SVM strong linear baseline | Kaggle Logistic regression with words and char n-grams | Kaggle LightGBM with Select K Best on TFIDF | Kaggle Wordbatch 1.3.3 FM_FTRL LB 0.9812 | Kaggle [For Beginners] Tackling Toxic Using Keras | Kaggle Improved LSTM baseline: GloVe + dropout | Kaggle Capsule net wit
TL;DR fastprogressを使うと、Deep Learningのモデルを学習させるとき自動で色々なものを出力してくれてすごく便利 特にjupyter上で学習を回すときにはとても良さそう 実際にfastprogressを使って学習を回すと以下のような感じになる (fastai/fastprogress: Simple and flexible progress bar for Jupyter Notebook and console より) fastprogressでできること 1エポックごとに、損失関数とかmetricsの値を標準出力に出力させたい 学習の進み具合を示すプログレスバーを、上記の標準出力と喧嘩しない形で表示させたい できればリアルタイムで学習曲線の表示もしてほしい... fastprogressを用いると全部実現可能。 これを使えば、少なくともDeep Learni
はじめに データセットの作成 LightGBM downsampling downsampling+bagging おわりに はじめに 新年初の技術系の記事です。 年末年始から最近にかけては、PyTorchの勉強などインプット重視で過ごしています。その一環で不均衡データの扱いも勉強しました。 クラス比1:99の人工的な不均衡データ使ってダウンサンプリングを試してるけど、バカみたいに負例を捨てちゃっても意外と大丈夫なんだな。計算時間が圧倒的に減るので、その時間でアンサンブル的なことすれば精度も確保できそう。— u++ (@upura0) January 8, 2019 上記のツイートを契機に多くのリプライなどで情報を頂戴しましたが、以前に話題になった「downsampling+bagging」の手法が良さそうでした。本記事では、模擬的に作成したデータセットにLightGBMを使い、「down
この記事はKaggle Advent Calendar 2018の20日目の記事です。当初の予定ではPLAsTiCCコンペの振り返りをするはずだったのですが、時空の狭間に吸い込まれた結果0サブミットでフィニッシュしてしまいました。何ででしょうね。 そこで、代わりにKaggleで使える便利なスニペットまとめを書くことにします。 ちなみにもうひとネタあったのでいつか書きたいですが、修論があるのでいったん見送り…… LINEに通知を送る 処理にかかる時間を計測する Jupyter Notebookの場合 Pythonスクリプトの場合 LightGBMの学習結果をログに出す Google Spreadsheetに結果を記録する Google Spreadsheet側の設定 Pythonからアクセスする Notebook上でライブラリを毎回再読込する DataFrameのメモリを節約する まとめ L
Kaggleで世界11位になったデータ解析手法~Sansan高際睦起の模範コードに学ぶ Kaggleの上位入賞者であるKaggle Grandmasterを獲得した、Sansan株式会社のデータサイエンティスト高際睦起さん。模範となるソースコードをもとに考え方や解析手法を教えていただきました。 「Porto Seguro’s Safe Driver Prediction」とは? 【技法1】前処理 【技法2】特徴抽出 【技法3】予測モデルの作成 Kaggle初心者は何から始めるべき? データサイエンティストを目指す若き人たちへ 世界中のデータサイエンティストたちが集まり、企業や研究者が投稿したデータに対する高精度なモデルを競い合うプラットフォーム・Kaggle。メンバーは100万人を超えており、良問の多さや参加者のレベルの高さゆえに、機械学習を学ぶ者にとって優れた研鑽(けんさん)の場となって
(7/24) 大阪大学大学院情報科学研究科、ビッグデータ解析のゲストスピーカー担当分講義の資料をアップしました。画像検索とコンテストの話です。
Who is going to win this war of predictions and on what cost? Let’s explore. I recently participated in this Kaggle competition (WIDS Datathon by Stanford) where I was able to land up in Top 10 using various boosting algorithms. Since then, I have been very curious about the fine workings of each model including parameter tuning, pros and cons and hence decided to write this blog. Despite the rece
のようになっています。 click_time以外はカテゴリカルデータで、始めから整数で表現(Label Encoding)されたものが与えられています。 これはデータとしては非常にシンプルでここからいかに情報を引き出すかがポイントとなります。 アンバランスな目的変数 以上を用いて予測する対象がis_attributedというアプリダウンロード有無の指標です。 is_attributedが1のデータは広告クリック後にアプリがダウンロードされたクリックイベント、0のデータはそうでないものです。 約1.8億件の訓練データ全体に対してis_attributed=1のデータは50万件弱で、割合にして約0.2%と非常に少ないです。 このように、目的変数の分布がアンバランスであることがこのコンペの特徴のひとつです。 ちなみにアプリがダウンロードされた時刻attributed_timeも与えられていますが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く