gandenのブックマーク - はてなブックマーク

KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基本に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。参加の動機目標感: 頑張りすぎずに上位10%以内に入る試行錯誤 AthenaとRedashによる探索的データ解析ベンチマークをまず超える線形分類器でシンプルな特徴量時系列要素を忘れていて過学習発生特徴量エンジニアリン
ganden 2018/03/19
data_science
リンク
Anomaly Detection in Streams with Extreme Value Theoryを読んだ - yasuhisa's blog
Anomaly Detection in Streams with Extreme Value Theory Amossys-team/SPOT: SPOT algorithm implementation (with variants) KDD2017の異常検知の論文です。異常検知を行なうとき、何らかの閾値を設定しますがこの閾値の決定は難しいことが多いです(そして精度にはよく効いてくる...)。正規分布のように理論的によく知られていて、解析的にも扱いやすいような分布では、累積分布関数を逆に辿ると「99.9%に対応する閾値はこれ!」と設定することができます。しかし、確率分布を陽に仮定するとそれ以外の分布ではきちんと動かなかったり、データ毎にモデル化をする必要があります。陽に確率分布を仮定しない方法もありますが、そちらはデータが少ないor厳しめのパーセンタイルを指定したいときに難しさがありま
ganden 2017/11/20
anomaly_detection

data_stream
リンク
R勉強会第六回
Rで時系列データってどう扱うの? 時系列オブジェクトを生成時系列オブジェクトの合併 lhデータデータを覗いてみる UKgasデータ出力が長いので要約した統計量を知りたい開始時刻、終了時刻などなどを知りたい時系列データの一部を取り出したい時系列データをプロットガス消費量のプロット複数種類の時系列データを一度に表示するデータを定常にするラグ処理実際にやってみるデータの定常化 diff関数自己相関係数 acfを使って、データが定常になるまで差分を取る答えもう一個練習答えちなみにシミュレーションでデータを生成シミュレーションでデータを生成してみよう sarimaのシミュレーションモデルの同定偏自己相関係数の直感的理解自己相関係数、偏自己相関係数から見るAR、MA、ARMAの特徴 ARモデル使うデータモデルを推定する arimaモデル ARIMAモデル
ganden 2011/10/25
statistics

time-series

r
リンク
1