showyouのブックマーク / 2018年4月5日

showyou id:showyou

2018年4月5日のブックマーク (5件)

kaggle-titanic-beginner
Kaggleの中でも特に有名な課題として「Titanic : Machine Learning from Disaster」（意訳：タイタニック号：災害からの機械学習）があります。先日に「Kaggleとは？機械学習初心者が知っておくべき3つの使い方」にて、初心者向けのKaggleの利用のコツをまとめましたが、今回はKaggleで公開されている実際のデータセットを使って、機械学習で予測を作って投稿してみましょう。この記事の概要と対象者今回のKaggle紹介記事では、Kaggle初心者向けに公開されているデータセットを使って「タイタニックの生存者予測」をPythonを使って行います。Pythonはある程度使えるけど・・機械学習を触ったことが無い、とりあえず機械学習をやってみたい、という方に向けた記事です。（機械学習中〜上級者の方には、物足りない内容です）このチュートリアルで使うもの Py
showyou 2018/04/05
kaggle
リンク
S3のログをAmazon Athenaを経由してRedashで分析/可視化 - yasuhisa's blog
DWHやログ基盤を色々試してみたいけど、Amazon Redshiftよりお手軽に始められるツールとしてAmazon Athenaを教えてもらいました。S3にtsv/csv/json...を置いておくと、SQLで分析できるってやつです。BigQueryと同じくクエリ単位で課金だけど、ログはS3に上がっていることが多いので、お手軽に試せそうということで試しました。N番煎じ感しかないやつです。やったこと。 S3に分析したい対象のデータを置く大きいデータなら日毎などに分けておくとあとのパーティションで役に立つ Athenaでtsv/csvのカラムの型を定義しておくインデックスの指定などは特にないパーティション分けてなければ基本的にフルスキャン数万件くらいの簡単なSQLで手元だと一瞬で返ってくるようなクエリでも3秒くらい時間かかるときもある S3のバケットなめるからそういうものっぽい参考
showyou 2018/04/05
リンク
KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。参加の動機目標感: 頑張りすぎずに上位10%以内に入る試行錯誤 AthenaとRedashによる探索的データ解析ベンチマークをまず超える線形分類器でシンプルな特徴量時系列要素を忘れていて過学習発生特徴量エンジニアリン
showyou 2018/04/05
機械学習
リンク
社内でKaggleの布教活動をやっている話 - yasuhisa's blog
最近、社内勉強会で機械学習についてエンジニアに説明する機会があり、その際にKaggleについても説明しました。一方でうーん、「Kaggler はパラメータチューニングやアンサンブル等の自明でインクリメンタルな改善『しか』できない」というような誤解はどうやって解いていけばいいんだろう。— im132nd (@im132nd) 2018年4月4日という話もあり、(特にデータサイエンティスト以外の職種の人が)Kaggleをやる意義/メリットについてまとめてみました。ガッと勢いで書いたので、項目に結構被りがあります。なお、書いている本人はKaggleほぼ初心者であまり説得力がないです。Kaggle Masterの人がもっといいエントリを書いてくれるのを期待しています、議論の叩き台エントリです!! Kaggleをやる意義/メリット様々なデータセットを触ることができる kernelでデータ分析の
showyou 2018/04/05
リンク
Improved Standard Evaluation Interfaces for Common Data Manipulation Tasks
The R package seplyr supplies improved standard evaluation interfaces for some common dplyr data plying tasks. This project is used in production to avoid exposing all of the details of rlang at the user level, and a demonstration of what can be done through value-oriented programming. Alternately one could use another value-oriented data manipulation system ‘rquery’/‘rqdatatable’. To get started
showyou 2018/04/05
R
リンク
- 2018年4月7日
- 2018年4月5日
- 2018年4月4日