タグ

ブックマーク / threeprogramming.lolipop.jp (4)

  • 月刊: Kaggleは役に立たない | threecourse's memo

    Kaggle Meetupのネタにでも、ふわっとした文章を書いてみる。 個人の意見です&ここ1-2年の状況変化は追えていないかも。 (追記:タイトルは「月刊競技プログラミングは役に立たない」という競プロ方面のネタから来ています) どうでもいい技術、どうでもいくない技術 Kaggleで勝つための技術を書き連ねてみる: Python, R, ライブラリの使い方 特徴量の作成 データについての考察、EDA モデルの使い方、パラメータチューニング 評価指標についての考察 DiscussionやWinner’s interviewを読む英語力 柔軟に作業や分析を回すためのクラス・ワークフロー・ログなどの実装 GCP, AWS, BigQueryといったサービスの運用 論文を読んで手法を参考にしたり実装したりする力 折れない心 改めてまとめてみると普通に学んで損のないものばかりな気がしてきた。 ただ、

    tsu-nera
    tsu-nera 2018/05/10
  • ユニクロコン 手法編 | threecourse's memo

    オプトのユニクロコンペ(https://deepanalytics.jp/compe/36?tab=comperank)に出ていました。 public 4th -> private 4thという結果で、運次第では賞金圏内もあったと思うので切ないですね。 0. 概要 基データ ユニクロの商品の色(24クラス)を判別する課題 Train:12399, Test:9801 背景はちゃんと切り抜いてくれているので、わざわざwatershedなどで背景抽出をする必要が無い 課題 色の判別はやや単純すぎる課題で、来はCNNを使うのはオーバーキルな感じもある。 ただ、後述のラベリングの微妙さも相まってコンペとしてはある意味おもしろい。 ラベリングが微妙。もはやどっちが正しいのかわからないの多数。特に3連下はなんだこれ。 分析すると、女性物は同じような色でもオフホワイトになりやすかったり、ラベリング

    tsu-nera
    tsu-nera 2017/07/31
  • Kaggle – 神々に近づくために | threecourse's memo

    PyDataTokyoに触発されたので、Kaggleで上位を取るための戦略、そして神々に近づくための学習戦略を考えてみました。 kaggle master (自慢)ではありますが、kaggle歴は浅いので、いろんな突っ込みどころがあると思います。 1. 初参加 ~ top25% まずはtitanicのtutorialを始めてみる 終わったら、ちゃんとポイントのもらえる番コンペに参加する お遊びコンペだとなかなか気合いが入らないので(人によります) いろんなコンペがあるが、とりあえず興味があるのに参加してみる 無理そうならあきらめる beat the benchmark(btb)というのがForumに出てくるので、まずはbeat the beat the benchmarkを目指す。これができればtop25%とか行けるのではなかろうか。 ツールの使い方を覚える良い機会 btbは特徴量をそん

  • いかにしてkaggleを解くか | threecourse's memo

    Walmart2015については、CrowdFlowerのSolutionを参考にしながら、いろいろと考えながらやってました。 結局xgboostとneural netのstackingくらいしかできませんでしたが。。(38th/1047) その中で、kaggleの問題に対して”解”を出すのにあたって、どういうポイントがあり、どのように進めていくべきかの”構造”を考えてみました。 kaggle masterだけど機械学習は素人なので、突っ込みどころはいっぱいあると思います。ご指摘やこんな資料があるなど、教えていただければ助かります。 1 – 特徴量作成・管理 何だかんだいっても特徴量作成は重要で、重要な特徴量を逃すと勝ち目はないでしょう。 逆に適切な特徴量が作れれば、xgboostだけで勝てることもあるようです。(cf. Rossmann) 特徴量はN * M(N:ID, M:要素数)の数

  • 1