[B! kaggle] keijakのブックマーク

競技としてのKaggle、役に立つKaggle

Kaggle Masterが語るMachineLearning - TechLovers #1 https://sony.connpass.com/event/315090/ での登壇資料です。コンペの流れとtips的な情報を主観強めで紹介しています。

keijak 2024/04/26

kaggle

リンク

Top 50 matplotlib Visualizations - The Master Plots (w/ Full Python Code) | ML+

Top 50 matplotlib Visualizations – The Master Plots (with full python code) A compilation of the Top 50 matplotlib plots most useful in data analysis and visualization. This list lets you choose what visualization to show for what situation using python’s matplotlib and seaborn library. Introduction The charts are grouped based on the 7 different purposes of your visualization objective. For examp

keijak 2019/06/03

kaggle

リンク

Partial suspension of access to the data and services on our website < About JAMSTEC < JAMSTEC

keijak 2019/06/03

kaggle

リンク

【随時更新】Kaggleテーブルデータコンペできっと役立つTipsまとめ - ML_BearのKaggleな日常

これはなに？ Kaggleのテーブルデータコンペに参加するときに役立つ(と思う)Tipsを Kaggle Coursera の授業メモに色々追記する形でまとめたものです自分で理解できている内容を中心にまとめました。各種資料の内容はまだまだ理解できていない内容が多く、今後も随時更新していきます(随時更新できるように勉強します)。この記事に書いてあるTipsをどのように活かしたかはKaggle参戦記に書いたので、併せてどうぞ。参考文献主として以下の資料の内容をピックアップさせていただきました。引用を明記していない部分は(ほぼ100%) Kaggle Coursera の内容です。 Kaggle Coursera kaggle_memo by nejumiさん Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ Kaggle TalkingData F

keijak 2019/04/28

kaggle

リンク

コルモゴロフ-スミルノフ検定を利用した特徴量選択 - u++の備忘録

はじめにコルモゴロフ-スミルノフ検定を利用した特徴量選択コルモゴロフ-スミルノフ検定とは特徴量選択にどう活用する？ Kaggle Kernel おわりにはじめにえじさんの下記記事を読んで「コルモゴロフ-スミルノフ検定を利用した特徴量選択」が気になりました。自分なりに簡単に手を動かしてみたので、備忘録としてまとめておきます。 amalog.hateblo.jp 元になったdiscussionの投稿はこちらです。 www.kaggle.com コルモゴロフ-スミルノフ検定を利用した特徴量選択コルモゴロフ-スミルノフ検定とは Pythonでは「scipy.stats.ks_2samp」で実行できます。 docs.scipy.org This tests whether 2 samples are drawn from the same distribution. 日本語にすると「2つ

keijak 2019/03/04

kaggle

リンク

Kaggle Eloコンペの振り返り・上位解法まとめ - 天色グラフィティ

KaggleのElo Merchant Category Recommendationコンペに参加しました。僕は@kasuminkoさん、@hirokasさんとチームを組んで、ラスト2週間だけ参加しました。結果から書くと、Public 221位からのPrivate 2220位という乱高下で儚く散りました。手元に銀メダル相当のスコアを持っていたにもかかわらず、間違ったサブミットを選んでしまっており、とても悔しいです。コンペの概要上位解法 1st place solution (30CrMnSiA) 特徴量モデル 5th place solution (Evgeny Patekha) 特徴量モデル 7th place solution (senkin) 特徴量モデルその他 11th place solution (Zakaria EL Mesaoudi) 特徴量モデルその他

keijak 2019/03/03

kaggle

リンク

GitHub - k-fujikawa/Kaggle-Quora-Insincere-Questions-Classification: 4th Place Solution for Kaggle Competition: Quora Insincere Questions Classification

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

keijak 2019/03/01

kaggle

リンク

Python: Adversarial Validation について - CUBE SUGAR CONTAINER

最近、Kaggle などのデータ分析コンペで使われることの多い Adversarial Validation という手法について調べたり考えていたので書いてみる。もくじもくじ背景 Adversarial Validation 試してみる下準備二つのデータが同じ分布に由来するとき二つのデータが異なる分布に由来するとき異なる分布でそのまま分類してみる検証用データに似ているものを取り出す取り出したデータを使って学習してみるラベルごとに似ているデータを取り出すどれだけ取り出して学習させれば良いのか Adversarial Validation の応用例背景 Adversarial Validation という手法は、データ分析コンペに存在する、ある課題を解決するために考案された。その課題とは、提供される複数のデータセットの分布が異なる場合に、いかにして正しく予測するかとい

keijak 2019/02/23

Local CV がうまく作れないときに考えるべき一手。

kaggle

リンク

【kaggle Advent Calendar 2018：4日目】validationの切り方いろいろ（sklearnの関数まとめ） - u++の備忘録

本記事は、kaggle Advent Calendar 2018の4日目の記事です。 qiita.com はじめに重要な視点 scikit-learnに用意されている関数 KFold StratifiedKFold GroupKFold ShuffleSplit GroupShuffleSplit StratifiedShuffleSplit TimeSeriesSplit 回帰問題の場合必ずしも「Trust CV」ではない Adversarial Validation おわりにはじめに本記事では、3日目の記事で重要性を説明したCross Validationについて、「良いCV」となるvalidationのデータセットはどのようなものか考えてみたいと思います。 upura.hatena blog.com この話題については、scikit-learnのドキュメンテーションが非常に充実

keijak 2019/02/16

kaggle

リンク

RNN Attention の理解と bias の議論 - higepon blog

背景参照前提 RNN を利用した Encoder& Decoder MNP モデル特徴図 Attention 理解のキーポイント重み PyTorch での Attention の実装例コードの解説問題とされた点筆者の疑問点間違いを見つけたら背景 Quora Insincere Questions Classification | Kaggle というコンペで public kernel で使われていた PyTorch Attention 実装に pitfall があったのではという指摘 Common pitfalls of public kernels | Kaggle があった。それを発端に Attention を正しく理解できていないことが分かったのでここにまとめる。参照 C5W3L08 Attention Model - YouTube Attention an

keijak 2019/02/15

十分なデータ量があれば各位置のbiasは似た値に収束していきそうだけど、それに必要なデータ量は実験してみないと分からないし、変数が増えたぶん学習が遅くなる上に過学習するリスクも上がる気がする。

kaggle

リンク

kaggle: Toxic Comment Classification Challenge まとめ - copypasteの日記

はじめにコンペ概要データの種類とタスク評価方法提出方法勉強になるkernelとdiscussion Stop the S@#$ - Toxic Comments EDA | Kaggle NB-SVM strong linear baseline | Kaggle Logistic regression with words and char n-grams | Kaggle LightGBM with Select K Best on TFIDF | Kaggle Wordbatch 1.3.3 FM_FTRL LB 0.9812 | Kaggle [For Beginners] Tackling Toxic Using Keras | Kaggle Improved LSTM baseline: GloVe + dropout | Kaggle Capsule net wit

keijak 2019/02/01

kaggle

リンク

Deep Learningの学習の様子を可視化する、fastprogressがすごく良さげ - Qiita

TL;DR fastprogressを使うと、Deep Learningのモデルを学習させるとき自動で色々なものを出力してくれてすごく便利特にjupyter上で学習を回すときにはとても良さそう実際にfastprogressを使って学習を回すと以下のような感じになる (fastai/fastprogress: Simple and flexible progress bar for Jupyter Notebook and console より) fastprogressでできること 1エポックごとに、損失関数とかmetricsの値を標準出力に出力させたい学習の進み具合を示すプログレスバーを、上記の標準出力と喧嘩しない形で表示させたいできればリアルタイムで学習曲線の表示もしてほしい... fastprogressを用いると全部実現可能。これを使えば、少なくともDeep Learni

keijak 2019/01/12

kaggle

リンク

LightGBMでdownsampling+bagging - u++の備忘録

はじめにデータセットの作成 LightGBM downsampling downsampling+bagging おわりにはじめに新年初の技術系の記事です。年末年始から最近にかけては、PyTorchの勉強などインプット重視で過ごしています。その一環で不均衡データの扱いも勉強しました。クラス比1:99の人工的な不均衡データ使ってダウンサンプリングを試してるけど、バカみたいに負例を捨てちゃっても意外と大丈夫なんだな。計算時間が圧倒的に減るので、その時間でアンサンブル的なことすれば精度も確保できそう。— u++ (@upura0) January 8, 2019 上記のツイートを契機に多くのリプライなどで情報を頂戴しましたが、以前に話題になった「downsampling+bagging」の手法が良さそうでした。本記事では、模擬的に作成したデータセットにLightGBMを使い、「down

keijak 2019/01/12

kaggle

リンク

コピペで使える。Kaggleでの実験を効率化する小技まとめ - 天色グラフィティ

この記事はKaggle Advent Calendar 2018の20日目の記事です。当初の予定ではPLAsTiCCコンペの振り返りをするはずだったのですが、時空の狭間に吸い込まれた結果0サブミットでフィニッシュしてしまいました。何ででしょうね。そこで、代わりにKaggleで使える便利なスニペットまとめを書くことにします。ちなみにもうひとネタあったのでいつか書きたいですが、修論があるのでいったん見送り…… LINEに通知を送る処理にかかる時間を計測する Jupyter Notebookの場合 Pythonスクリプトの場合 LightGBMの学習結果をログに出す Google Spreadsheetに結果を記録する Google Spreadsheet側の設定 Pythonからアクセスする Notebook上でライブラリを毎回再読込する DataFrameのメモリを節約するまとめ L

keijak 2018/12/22

kaggle

リンク

Kaggleで世界11位になったデータ解析手法～Sansan高際睦起の模範コードに学ぶ｜ハイクラス転職・求人情報サイト AMBI（アンビ）

Kaggleで世界11位になったデータ解析手法～Sansan高際睦起の模範コードに学ぶ Kaggleの上位入賞者であるKaggle Grandmasterを獲得した、Sansan株式会社のデータサイエンティスト高際睦起さん。模範となるソースコードをもとに考え方や解析手法を教えていただきました。「Porto Seguro’s Safe Driver Prediction」とは？【技法1】前処理【技法2】特徴抽出【技法3】予測モデルの作成 Kaggle初心者は何から始めるべき？データサイエンティストを目指す若き人たちへ世界中のデータサイエンティストたちが集まり、企業や研究者が投稿したデータに対する高精度なモデルを競い合うプラットフォーム・Kaggle。メンバーは100万人を超えており、良問の多さや参加者のレベルの高さゆえに、機械学習を学ぶ者にとって優れた研鑽（けんさん）の場となって

keijak 2018/08/24

kaggle

リンク

画像検索 (特定物体認識) — 古典手法、マッチング、深層学習、Kaggle - Speaker Deck

(7/24) 大阪大学大学院情報科学研究科、ビッグデータ解析のゲストスピーカー担当分講義の資料をアップしました。画像検索とコンテストの話です。

keijak 2018/08/24

kaggle

リンク

CatBoost vs. Light GBM vs. XGBoost

Who is going to win this war of predictions and on what cost? Let’s explore. I recently participated in this Kaggle competition (WIDS Datathon by Stanford) where I was able to land up in Top 10 using various boosting algorithms. Since then, I have been very curious about the fine workings of each model including parameter tuning, pros and cons and hence decided to write this blog. Despite the rece

keijak 2018/06/19

kaggle

リンク

深層学習による Kaggle 画像分類コンテストへのアプローチ

ステアラボ人工知能シンポジウム 2018 (講演2) タイトル: 深層学習による Kaggle 画像分類コンテストへのアプローチ講演者: 株式会社Preferred Networks 秋葉拓哉ブログ: https://stair.center/archives/1480

keijak 2018/06/19

めっちゃ面白いし参考になる。

kaggle

リンク

Kaggle TalkingData Fraud Detection コンペの解法まとめ(基本編) | リクルート

のようになっています。 click_time以外はカテゴリカルデータで、始めから整数で表現(Label Encoding)されたものが与えられています。これはデータとしては非常にシンプルでここからいかに情報を引き出すかがポイントとなります。アンバランスな目的変数以上を用いて予測する対象がis_attributedというアプリダウンロード有無の指標です。 is_attributedが1のデータは広告クリック後にアプリがダウンロードされたクリックイベント、0のデータはそうでないものです。約1.8億件の訓練データ全体に対してis_attributed=1のデータは50万件弱で、割合にして約0.2%と非常に少ないです。このように、目的変数の分布がアンバランスであることがこのコンペの特徴のひとつです。ちなみにアプリがダウンロードされた時刻attributed_timeも与えられていますが

keijak 2018/06/19

negative down samplingで解析のターンアラウンドタイムを減らせる上に精度も出る

kaggle

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

kaggleに関するkeijakのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年10月第1週）

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス