[B! kaggle] takuya-aのブックマーク

Kaggle-Shopee コンペの振り返りとソリューション

Kaggle-Shopee コンペの振り返り 2021/03/09~2021/05/11まで開催していたShopee コンペの振り返りになります． 2週間程度しか手を動かせなかったですが，久しぶりに参加したので備忘録として記録を残しておきます．最終的な結果は179th/2464で銅メダルで，特に凝ったことは何もしていなかったので，妥当かなと思います．このコンペは上位10チーム中7チームが日本人チームで，日本人のレベルの高さを改めて実感できるコンペでした！概要コンペの内容は簡単に言うと，画像とテキスト情報を用いて、2つの画像の類似性を比較し，どのアイテムが同じ商品であるかを予測するコンペになります．開催期間: 2021/03/09 ~ 2021/05/11 参加チーム数: 2464 予測対象: posting_id 列にマッチする全ての posting_id を予測する．ただし，pos

takuya-a 2021/05/15

kaggle

リンク

特徴量選択のまとめ - Qiita

Kaggle Advent Calendar その2の23日目の記事です。私はkaggleを始めたばかりでテーブルデータのコンペはTitanicしかやったことがないため、特徴量をどのように選べばいいのかよくわからなかったのでまとめます。特徴量選択手法のまとめ特徴量選択とは、機械学習のモデルを使用する際に有効な特徴量の組み合わせを探索するプロセスのことを表しています。特徴量選択を行うことによりいくつかのメリットが得られます。変数を少なくすることで解釈性を上げる計算コストを下げて、学習時間を短縮する過適合を避けて汎用性を向上させる高次元データによって、パフォーマンスが下がることを防ぐ。特徴量選択の種類特徴量選択の手法は大別して3つ存在します。 Filter Method Wrapper Method Emedded Method Filter Method Filter M

takuya-a 2019/08/12

ml
kaggle

リンク

【随時更新】Kaggleテーブルデータコンペできっと役立つTipsまとめ - ML_BearのKaggleな日常

これはなに？ Kaggleのテーブルデータコンペに参加するときに役立つ(と思う)Tipsを Kaggle Coursera の授業メモに色々追記する形でまとめたものです自分で理解できている内容を中心にまとめました。各種資料の内容はまだまだ理解できていない内容が多く、今後も随時更新していきます(随時更新できるように勉強します)。この記事に書いてあるTipsをどのように活かしたかはKaggle参戦記に書いたので、併せてどうぞ。参考文献主として以下の資料の内容をピックアップさせていただきました。引用を明記していない部分は(ほぼ100%) Kaggle Coursera の内容です。 Kaggle Coursera kaggle_memo by nejumiさん Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ Kaggle TalkingData F

takuya-a 2019/04/16

ml
kaggle

リンク

Kaggleに登録したら次にやること～これだけやれば十分闘える！Titanicの先へ行く入門 10 Kernel ～ - Qiita

Kaggleに登録したら次にやること～これだけやれば十分闘える！Titanicの先へ行く入門 10 Kernel ～PythonKaggle 事業会社でデータサイエンティストをしているu++です。普段ははてなブログ1で、Kaggleや自然言語処理などデータ分析に関する記事を定期的に書いています。 Kaggleでは2019年に「PetFinder.my Adoption Prediction」2というコンペで優勝（チーム）し、「Santander Value Prediction Challenge」3というコンペで銀メダルを獲得（個人）しました。「Kaggle Master」と呼ばれる称号4を得ており、Kaggle内ランクは、約16万人中最高229位です5。本記事では「Kaggleに登録したら次にやること」と題して、Kaggleに入門したい方に向けて次のようなコンテンツを掲載します。

takuya-a 2019/04/01

kaggle
ml

リンク

最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング

本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。近年注目を集めるアーキテクチャーである「Transf ormer」の解説スライドとなっております。 "Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise. The slides are made by the lecturer from outside our company, and shared here with his/her permission. Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステム

takuya-a 2019/03/28

昨日のMLM KANSAIの @nyanp さんの資料が公開されたぞ！特徴量の作り方めちゃめちゃ参考になるのでぜひ

ml
kaggle

リンク

Kaggle参戦記〜入門からExpert獲得までの半年間の記録 & お役立ち資料まとめ〜 - ML_BearのKaggleな日常

これはなに？デジタルマーケター兼プロダクトマネージャー兼データアナリスト (肩書長い…) の私が Kaggle に挑戦した約半年間の記録です。現時点で2つのコンペに真面目に取り組んで2つの銀メダル(入賞)を獲得出来ています。 Kaggle挑戦期間を通して、有識者の素晴らしい資料に助けられたのでとても感謝しています。同じような志を持つ方に自分の記録が少しでも役に立てばと思い、有用な資料のリンク集に私のKaggle参戦記ポエムをつけてまとめてみました。自分の得意領域で勝負しようと思ってテーブルデータのコンペばかり選んでいるのでDeepLearning系の話は全然ないです、すみません。目次プロローグ Kaggleへの興味の芽生え初参戦 → 即撤退ガチ参戦に向けた修行初ガチコンペデビュー初ガチコンペ…、のはずが。初ガチコンペ参戦ベースモデル作成特徴量エンジニアリング

takuya-a 2019/03/18

kaggle
ml

リンク

kaggle: Mercari Price Suggestion Challenge まとめ - copypasteの日記

はじめにコンペ概要特別ルール kernel only 2stage 特別ルールの影響データの種類とタスク評価方法提出方法勉強になる Kernel と Discussion Mercari Interactive EDA + Topic Modelling | Kaggle Ridge Script | Kaggle ELI5 for Mercari | Kaggle A simple nn solution with Keras (~0.48611 P 12a776 | Kaggle Wordbatch FTRL+FM+LGB (LBL 0.42506) | Kaggle CNN GloVE single model-Private LB 0.41117 (~35th) | Kaggle Mercari Golf: 0.3875 CV in 75 LOC, 1900 s | K

takuya-a 2019/02/24

リンク

Quora Insincere Questions Classification | Kaggle

takuya-a 2019/01/08

リンク

ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

特徴量選択とは Borutaとはとりあえず使ってみるベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、本当に重要な特徴量のみを選択。検定について 1. 棄却したい帰無仮説と受容したい対立仮説を用意する。 2. 観測値から検定統計量Tを定める。 3. 帰無仮説が正しいとしてTの分布を求める。 4. 十分小さい有意水準αを定め、帰無仮説が正しいときにとなる領域を棄却域とする。 5. 観測されたTがに入っていたら対立仮説を受容し、入っていなければ帰無仮説を受容する。まとめ補足使う際のTips等 2019/01/06追記参考特徴量選択とは特徴量選択

takuya-a 2019/01/06

ml
kaggle

リンク

【Kaggleのフォルダ構成や管理方法】タイタニック用のGitHubリポジトリを公開しました - u++の備忘録

はじめに Kaggleのタイタニック GitHubリポジトリ執筆の経緯大まかな方針参考にした情報フォルダ構成 configs data input output features logs models notebook scripts utils 計算の実行 Git管理おわりにはじめに本記事では、Kaggle用フォルダ構成や管理方法について、現時点での自己流の方法をまとめます。「現状自分はこういうやり方を試している」という話なので、よりよい方法などあれば、ぜひTwitterなどで教えてください。具体例がないと抽象的で分かりづらいと思ったので、Kaggleのタイタニックを題材にしました。GitHubのリポジトリも公開しています。 Kaggleのタイタニック Kaggleのタイタニックとは、Kaggleのチュートリアル的な問題として認知度の高いコンペティションです。タイタニッ

takuya-a 2018/12/31

リンク

2018年のKaggleの"leak"を眺めてみる - u++の備忘録

はじめに 2018年のKaggleでは、何かと "leak" という単語が話題になった印象があります。 https://www.kaggle.com/docs/competitions#leakage 今回は、Meta Kaggleのデータを分析し、2018年のコンペで話題になった "leak" を眺めてみました。 Meta Kaggle 分析の概要 2018年に公開された全てのdiscussionから、タイトルに "leak" を含むものを抽出ただし対象コンペは、2018年に開始したレート変動を含むものとする対象コンペの抽出 discussionに関するデータセットには、コンペ名が記載されていませんでした。今回は "ForumId" をキーに結合することで、discussionとコンペ名を紐づけます。 compe = pd.read_csv("Competitions.csv") #

takuya-a 2018/12/31

ml
kaggle

リンク

https://github.com/amaotone/kaggle-memo/blob/master/README.md

takuya-a 2018/09/14

ml
kaggle

リンク

kaggle_memo/README.md at master · nejumi/kaggle_memo

まずは、素うどんのXGBoostにかけて、plot_importance, feature_importances_を確認する。しかる後に、各特徴量をF-SCOREの高い順にExploratory Data Analysis (EDA)を行い、データに対する感覚を掴む。特徴量の数が少ないのであれば、初めからEDA。情報を含まないcolumnsを除く。[Kaggle Kernel: R, Python] 標準偏差が0の説明変数 (constant cols) を除く。重複した説明変数 (duplicated cols) を1つだけ残して他を除く。相関係数が1である説明変数の組 (perfectly correlated cols) を探し、1つだけ残して他を除く。各列について、値が0である説明変数の数を数えて、合計値を追加の説明変数として加える (count 0 per row)。逆

takuya-a 2018/08/28

ml
kaggle

リンク

Kaggle Past Competitions

Kaggle Past Solutions Sorta ble and searchable compilation of solutions to past Kaggle competitions. If you are facing a data science probl em, there is a good chance that you can find inspiration here! This page could be improved by adding more competitions and more solutions: pull requests are more than welcome. Warning: this is a work in progress, many competitions are missing solutions. If you f

takuya-a 2018/07/29

kaggle
ml

リンク

文章特徴抽出ライブラリWordBatchを試してみる - Qiita

GWを使って、文章から特徴を抽出するライブラリwordbatchを試しました。wordbatchって何なの？って人も見たことあるって人もこれから使ってみようという人にも役に立てればと思います。 WordBatchとはこちらで公開されております。一言で言うと「機械学習用の並列処理テキスト抽出ライブラリ(予測器付き)」です。ミニバッチで文章からの特徴抽出を行うため、少ないメモリかつ並列処理で文章からの特徴抽出が可能です。カスタマイズ性も高く、他のライブラリをそのまま置き換えることができます。また、wordbatchというライブラリは文章特徴抽出器の他に、単一ラベル用のオンラインで並列処理できる予測器も備えています。こちらも実際にメモリに乗りづらい大きいデータの予測などに活用できると思われます。ユースケースとしては、以下の要望に応えられるものかと思います。なるべく時間かけずに文章の

takuya-a 2018/05/01

リンク

社内でKaggleの布教活動をやっている話 - yasuhisa's blog

最近、社内勉強会で機械学習についてエンジニアに説明する機会があり、その際にKaggleについても説明しました。一方でうーん、「Kaggler はパラメータチューニングやアンサンブル等の自明でインクリメンタルな改善『しか』できない」というような誤解はどうやって解いていけばいいんだろう。— im132nd (@im132nd) 2018年4月4日という話もあり、(特にデータサイエンティスト以外の職種の人が)Kaggleをやる意義/メリットについてまとめてみました。ガッと勢いで書いたので、項目に結構被りがあります。なお、書いている本人はKaggleほぼ初心者であまり説得力がないです。Kaggle Masterの人がもっといいエントリを書いてくれるのを期待しています、議論の叩き台エントリです!! Kaggleをやる意義/メリット様々なデータセットを触ることができる kernelでデータ分析の

takuya-a 2018/04/06

Kaggleの過去問は実データセットのリポジトリとして使えるのに加えて、いろんなアプローチでどのくらい精度が出るかという解答集がセットになってて、機械学習の学習に最適。それをベースに開催中のにも挑戦できるし。

kaggle
ml

リンク

KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog

週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。参加の動機目標感: 頑張りすぎずに上位10%以内に入る試行錯誤 AthenaとRedashによる探索的データ解析ベンチマークをまず超える線形分類器でシンプルな特徴量時系列要素を忘れていて過学習発生特徴量エンジニアリン

takuya-a 2018/03/19

リンク

過学習の恐怖，またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶

データマイニングのコンペティンションサイトKaggle: Your Home for Data Scienceに投稿された記事であるThe Dangers of Overfitting or How to Drop 50 spots in 1 minute | No Free Hunchの自分用まとめ．要約あるコンペにて「勝った！！！！！！！！！！！」と思ったが蓋を開けてみれば2位から52位に落ちてた過学習ダメ絶対 cross validation は適切に行わないといかんそもそも Kaggle で Online Privacy Foundation が主催していた，Twitterアカウントごとに0/1を予測するコンペに参加した． Kaggle のランキングシステムは Public と Private で分かれていて，コンテストが終了するまではテストデータの一部だけを使った答え合わ

takuya-a 2018/03/07

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

kaggleに関するtakuya-aのブックマーク (18)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス