タグ

2018年4月5日のブックマーク (5件)

  • kaggle-titanic-beginner

    Kaggleの中でも特に有名な課題として「Titanic : Machine Learning from Disaster」(意訳:タイタニック号:災害からの機械学習)があります。先日に「Kaggleとは?機械学習初心者が知っておくべき3つの使い方」にて、初心者向けのKaggleの利用のコツをまとめましたが、今回はKaggleで公開されている実際のデータセットを使って、機械学習で予測を作って投稿してみましょう。 この記事の概要と対象者 今回のKaggle紹介記事では、Kaggle初心者向けに公開されているデータセットを使って「タイタニックの生存者予測」をPythonを使って行います。Pythonはある程度使えるけど・・機械学習を触ったことが無い、とりあえず機械学習をやってみたい、という方に向けた記事です。(機械学習中〜上級者の方には、物足りない内容です) このチュートリアルで使うもの Py

    kaggle-titanic-beginner
  • S3のログをAmazon Athenaを経由してRedashで分析/可視化 - yasuhisa's blog

    DWHやログ基盤を色々試してみたいけど、Amazon Redshiftよりお手軽に始められるツールとしてAmazon Athenaを教えてもらいました。S3にtsv/csv/json...を置いておくと、SQLで分析できるってやつです。BigQueryと同じくクエリ単位で課金だけど、ログはS3に上がっていることが多いので、お手軽に試せそうということで試しました。N番煎じ感しかないやつです。やったこと。 S3に分析したい対象のデータを置く 大きいデータなら日毎などに分けておくとあとのパーティションで役に立つ Athenaでtsv/csvのカラムの型を定義しておく インデックスの指定などは特にない パーティション分けてなければ基的にフルスキャン 数万件くらいの簡単なSQLで手元だと一瞬で返ってくるようなクエリでも3秒くらい時間かかるときもある S3のバケットなめるからそういうものっぽい 参考

    S3のログをAmazon Athenaを経由してRedashで分析/可視化 - yasuhisa's blog
    showyou
    showyou 2018/04/05
  • KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog

    週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。 参加の動機 目標感: 頑張りすぎずに上位10%以内に入る 試行錯誤 AthenaとRedashによる探索的データ解析 ベンチマークをまず超える 線形分類器でシンプルな特徴量 時系列要素を忘れていて過学習発生 特徴量エンジニアリン

    KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
  • 社内でKaggleの布教活動をやっている話 - yasuhisa's blog

    最近、社内勉強会で機械学習についてエンジニアに説明する機会があり、その際にKaggleについても説明しました。一方で うーん、「Kaggler はパラメータチューニングやアンサンブル等の自明でインクリメンタルな改善『しか』できない」というような誤解はどうやって解いていけばいいんだろう。— im132nd (@im132nd) 2018年4月4日 という話もあり、(特にデータサイエンティスト以外の職種の人が)Kaggleをやる意義/メリットについてまとめてみました。ガッと勢いで書いたので、項目に結構被りがあります。なお、書いている人はKaggleほぼ初心者であまり説得力がないです。Kaggle Masterの人がもっといいエントリを書いてくれるのを期待しています、議論の叩き台エントリです!! Kaggleをやる意義/メリット 様々なデータセットを触ることができる kernelでデータ分析

    社内でKaggleの布教活動をやっている話 - yasuhisa's blog
    showyou
    showyou 2018/04/05
  • Improved Standard Evaluation Interfaces for Common Data Manipulation Tasks

    The R package seplyr supplies improved standard evaluation interfaces for some common dplyr data plying tasks. This project is used in production to avoid exposing all of the details of rlang at the user level, and a demonstration of what can be done through value-oriented programming. Alternately one could use another value-oriented data manipulation system ‘rquery’/‘rqdatatable’. To get started

    showyou
    showyou 2018/04/05