タグ

kaggleに関するtakuya-aのブックマーク (18)

  • Kaggle-Shopee コンペの振り返りとソリューション

    Kaggle-Shopee コンペの振り返り 2021/03/09~2021/05/11まで開催していたShopee コンペの振り返りになります. 2週間程度しか手を動かせなかったですが,久しぶりに参加したので備忘録として記録を残しておきます.最終的な結果は179th/2464で銅メダルで,特に凝ったことは何もしていなかったので,妥当かなと思います.このコンペは上位10チーム中7チームが日人チームで,日人のレベルの高さを改めて実感できるコンペでした! 概要 コンペの内容は簡単に言うと,画像とテキスト情報を用いて、2つの画像の類似性を比較し,どのアイテムが同じ商品であるかを予測するコンペになります. 開催期間: 2021/03/09 ~ 2021/05/11 参加チーム数: 2464 予測対象: posting_id 列にマッチする全ての posting_id を予測する.ただし,pos

    Kaggle-Shopee コンペの振り返りとソリューション
  • 特徴量選択のまとめ - Qiita

    Kaggle Advent Calendar その2の23日目の記事です。 私はkaggleを始めたばかりでテーブルデータのコンペはTitanicしかやったことがないため、特徴量をどのように選べばいいのかよくわからなかったのでまとめます。 特徴量選択手法のまとめ 特徴量選択とは、機械学習のモデルを使用する際に有効な特徴量の組み合わせを探索するプロセスのことを表しています。 特徴量選択を行うことによりいくつかのメリットが得られます。 変数を少なくすることで解釈性を上げる 計算コストを下げて、学習時間を短縮する 過適合を避けて汎用性を向上させる 高次元データによって、パフォーマンスが下がることを防ぐ。 特徴量選択の種類 特徴量選択の手法は大別して3つ存在します。 Filter Method Wrapper Method Emedded Method Filter Method Filter M

    特徴量選択のまとめ - Qiita
  • 【随時更新】Kaggleテーブルデータコンペできっと役立つTipsまとめ - ML_BearのKaggleな日常

    これはなに? Kaggleのテーブルデータコンペに参加するときに役立つ(と思う)Tipsを Kaggle Coursera の授業メモに色々追記する形でまとめたものです 自分で理解できている内容を中心にまとめました。各種資料の内容はまだまだ理解できていない内容が多く、今後も随時更新していきます(随時更新できるように勉強します)。 この記事に書いてあるTipsをどのように活かしたかはKaggle参戦記に書いたので、併せてどうぞ。 参考文献 主として以下の資料の内容をピックアップさせていただきました。引用を明記していない部分は(ほぼ100%) Kaggle Coursera の内容です。 Kaggle Coursera kaggle_memo by nejumiさん Kaggleで世界11位になったデータ解析手法〜Sansan高際睦起の模範コードに学ぶ Kaggle TalkingData F

    【随時更新】Kaggleテーブルデータコンペできっと役立つTipsまとめ - ML_BearのKaggleな日常
  • Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ - Qiita

    Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~PythonKaggle 事業会社でデータサイエンティストをしているu++です。普段ははてなブログ1で、Kaggleや自然言語処理などデータ分析に関する記事を定期的に書いています。 Kaggleでは2019年に「PetFinder.my Adoption Prediction」2というコンペで優勝(チーム)し、「Santander Value Prediction Challenge」3というコンペで銀メダルを獲得(個人)しました。「Kaggle Master」と呼ばれる称号4を得ており、Kaggle内ランクは、約16万人中最高229位です5。 記事では「Kaggleに登録したら次にやること」と題して、Kaggleに入門したい方に向けて次のようなコンテンツを掲載します。

    Kaggleに登録したら次にやること ~ これだけやれば十分闘える!Titanicの先へ行く入門 10 Kernel ~ - Qiita
  • 最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング

    スライドは、弊社の梅により弊社内の技術勉強会で使用されたものです。 近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。 "Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise. The slides are made by the lecturer from outside our company, and shared here with his/her permission. Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステム

    最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
    takuya-a
    takuya-a 2019/03/28
    昨日のMLM KANSAIの @nyanp さんの資料が公開されたぞ!特徴量の作り方めちゃめちゃ参考になるのでぜひ
  • Kaggle参戦記 〜入門からExpert獲得までの半年間の記録 & お役立ち資料まとめ〜 - ML_BearのKaggleな日常

    これはなに? デジタルマーケター 兼 プロダクトマネージャー 兼 データアナリスト (肩書長い…) の私が Kaggle に挑戦した約半年間の記録です。現時点で2つのコンペに真面目に取り組んで2つの銀メダル(入賞)を獲得出来ています。 Kaggle挑戦期間を通して、有識者の素晴らしい資料に助けられたのでとても感謝しています。同じような志を持つ方に自分の記録が少しでも役に立てばと思い、有用な資料のリンク集に私のKaggle参戦記ポエムをつけてまとめてみました。 自分の得意領域で勝負しようと思ってテーブルデータのコンペばかり選んでいるのでDeepLearning系の話は全然ないです、すみません。 目次 プロローグ Kaggleへの興味の芽生え 初参戦 → 即撤退 ガチ参戦に向けた修行 初ガチコンペデビュー 初ガチコンペ…、のはずが。 初ガチコンペ参戦 ベースモデル作成 特徴量エンジニアリング

    Kaggle参戦記 〜入門からExpert獲得までの半年間の記録 & お役立ち資料まとめ〜 - ML_BearのKaggleな日常
  • kaggle: Mercari Price Suggestion Challenge まとめ - copypasteの日記

    はじめに コンペ概要 特別ルール kernel only 2stage 特別ルールの影響 データの種類とタスク 評価方法 提出方法 勉強になる Kernel と Discussion Mercari Interactive EDA + Topic Modelling | Kaggle Ridge Script | Kaggle ELI5 for Mercari | Kaggle A simple nn solution with Keras (~0.48611 P 12a776 | Kaggle Wordbatch FTRL+FM+LGB (LBL 0.42506) | Kaggle CNN GloVE single model-Private LB 0.41117 (~35th) | Kaggle Mercari Golf: 0.3875 CV in 75 LOC, 1900 s | K

    kaggle: Mercari Price Suggestion Challenge まとめ - copypasteの日記
  • Quora Insincere Questions Classification | Kaggle

  • ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

    特徴量選択とは Borutaとは とりあえず使ってみる ベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、当に重要な特徴量のみを選択。 検定について 1. 棄却したい帰無仮説と受容したい対立仮説を用意する。 2. 観測値から検定統計量Tを定める。 3. 帰無仮説が正しいとしてTの分布を求める。 4. 十分小さい有意水準αを定め、帰無仮説が正しいときにとなる領域を棄却域とする。 5. 観測されたTがに入っていたら対立仮説を受容し、入っていなければ帰無仮説を受容する。 まとめ 補足 使う際のTips等 2019/01/06追記 参考 特徴量選択とは 特徴量選択

    ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット
  • 【Kaggleのフォルダ構成や管理方法】タイタニック用のGitHubリポジトリを公開しました - u++の備忘録

    はじめに Kaggleのタイタニック GitHubリポジトリ 執筆の経緯 大まかな方針 参考にした情報 フォルダ構成 configs data input output features logs models notebook scripts utils 計算の実行 Git管理 おわりに はじめに 記事では、Kaggle用フォルダ構成や管理方法について、現時点での自己流の方法をまとめます。「現状自分はこういうやり方を試している」という話なので、よりよい方法などあれば、ぜひTwitterなどで教えてください。 具体例がないと抽象的で分かりづらいと思ったので、Kaggleのタイタニックを題材にしました。GitHubのリポジトリも公開しています。 Kaggleのタイタニック Kaggleのタイタニックとは、Kaggleのチュートリアル的な問題として認知度の高いコンペティションです。タイタニッ

    【Kaggleのフォルダ構成や管理方法】タイタニック用のGitHubリポジトリを公開しました - u++の備忘録
  • 2018年のKaggleの"leak"を眺めてみる - u++の備忘録

    はじめに 2018年のKaggleでは、何かと "leak" という単語が話題になった印象があります。 https://www.kaggle.com/docs/competitions#leakage 今回は、Meta Kaggleのデータを分析し、2018年のコンペで話題になった "leak" を眺めてみました。 Meta Kaggle 分析の概要 2018年に公開された全てのdiscussionから、タイトルに "leak" を含むものを抽出 ただし対象コンペは、2018年に開始したレート変動を含むものとする 対象コンペの抽出 discussionに関するデータセットには、コンペ名が記載されていませんでした。今回は "ForumId" をキーに結合することで、discussionとコンペ名を紐づけます。 compe = pd.read_csv("Competitions.csv") #

    2018年のKaggleの"leak"を眺めてみる - u++の備忘録
  • https://github.com/amaotone/kaggle-memo/blob/master/README.md

  • kaggle_memo/README.md at master · nejumi/kaggle_memo

    まずは、素うどんのXGBoostにかけて、plot_importance, feature_importances_を確認する。しかる後に、各特徴量をF-SCOREの高い順にExploratory Data Analysis (EDA)を行い、データに対する感覚を掴む。特徴量の数が少ないのであれば、初めからEDA。 情報を含まないcolumnsを除く。[Kaggle Kernel: R, Python] 標準偏差が0の説明変数 (constant cols) を除く。 重複した説明変数 (duplicated cols) を1つだけ残して他を除く。 相関係数が1である説明変数の組 (perfectly correlated cols) を探し、1つだけ残して他を除く。 各列について、値が0である説明変数の数を数えて、合計値を追加の説明変数として加える (count 0 per row)。逆

    kaggle_memo/README.md at master · nejumi/kaggle_memo
  • Kaggle Past Competitions

    Kaggle Past Solutions Sortable and searchable compilation of solutions to past Kaggle competitions. If you are facing a data science problem, there is a good chance that you can find inspiration here! This page could be improved by adding more competitions and more solutions: pull requests are more than welcome. Warning: this is a work in progress, many competitions are missing solutions. If you f

  • 文章特徴抽出ライブラリWordBatchを試してみる - Qiita

    GWを使って、文章から特徴を抽出するライブラリwordbatchを試しました。wordbatchって何なの?って人も見たことあるって人もこれから使ってみようという人にも役に立てればと思います。 WordBatchとは こちらで公開されております。 一言で言うと 「機械学習用の並列処理テキスト抽出ライブラリ(予測器付き)」です。 ミニバッチで文章からの特徴抽出を行うため、少ないメモリかつ並列処理で文章からの特徴抽出が可能です。カスタマイズ性も高く、他のライブラリをそのまま置き換えることができます。 また、wordbatchというライブラリは文章特徴抽出器の他に、単一ラベル用のオンラインで並列処理できる予測器も備えています。こちらも実際にメモリに乗りづらい大きいデータの予測などに活用できると思われます。 ユースケースとしては、以下の要望に応えられるものかと思います。 なるべく時間かけずに文章の

    文章特徴抽出ライブラリWordBatchを試してみる - Qiita
  • 社内でKaggleの布教活動をやっている話 - yasuhisa's blog

    最近、社内勉強会で機械学習についてエンジニアに説明する機会があり、その際にKaggleについても説明しました。一方で うーん、「Kaggler はパラメータチューニングやアンサンブル等の自明でインクリメンタルな改善『しか』できない」というような誤解はどうやって解いていけばいいんだろう。— im132nd (@im132nd) 2018年4月4日 という話もあり、(特にデータサイエンティスト以外の職種の人が)Kaggleをやる意義/メリットについてまとめてみました。ガッと勢いで書いたので、項目に結構被りがあります。なお、書いている人はKaggleほぼ初心者であまり説得力がないです。Kaggle Masterの人がもっといいエントリを書いてくれるのを期待しています、議論の叩き台エントリです!! Kaggleをやる意義/メリット 様々なデータセットを触ることができる kernelでデータ分析

    社内でKaggleの布教活動をやっている話 - yasuhisa's blog
    takuya-a
    takuya-a 2018/04/06
    Kaggleの過去問は実データセットのリポジトリとして使えるのに加えて、いろんなアプローチでどのくらい精度が出るかという解答集がセットになってて、機械学習の学習に最適。それをベースに開催中のにも挑戦できるし。
  • KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog

    週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。 参加の動機 目標感: 頑張りすぎずに上位10%以内に入る 試行錯誤 AthenaとRedashによる探索的データ解析 ベンチマークをまず超える 線形分類器でシンプルな特徴量 時系列要素を忘れていて過学習発生 特徴量エンジニアリン

    KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
  • 過学習の恐怖,またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶

    データマイニングのコンペティンションサイトKaggle: Your Home for Data Scienceに投稿された記事であるThe Dangers of Overfitting or How to Drop 50 spots in 1 minute | No Free Hunchの自分用まとめ. 要約 あるコンペにて「勝った!!!!!!!!!!!」と思ったが蓋を開けてみれば2位から52位に落ちてた 過学習ダメ絶対 cross validation は適切に行わないといかん そもそも Kaggle で Online Privacy Foundation が主催していた,Twitterアカウントごとに0/1を予測するコンペに参加した. Kaggle のランキングシステムは Public と Private で分かれていて,コンテストが終了するまではテストデータの一部だけを使った答え合わ

    過学習の恐怖,またはいかにして私は1分間でランキングを50位も落としたか(要約) - 糞ネット弁慶
  • 1