タグ

ブックマーク / www.yasuhisay.info (3)

  • KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog

    週末KagglerとしてavazuのCTR予測コンペに参加しました。Kaggleは機械学習版のISUCONだと思ってもらえばよいです。コンペ自体は終わっているので、late submiteであまり意味はないかもしれません、練習です。leaderboard上で上位10%以内に行けたので、そこまでの試行錯誤をメモしておきます。謎ノウハウ(?)を持っているガチ勢じゃないと上位に行けないものかと思っていましたが、基に忠実にやればこれくらいの順位(上位7.6%)に行けましたし、他の人の工夫を垣間見えるという意味でも現場の機械学習やり始めたエンジニアにお薦めできそうでした。 参加の動機 目標感: 頑張りすぎずに上位10%以内に入る 試行錯誤 AthenaとRedashによる探索的データ解析 ベンチマークをまず超える 線形分類器でシンプルな特徴量 時系列要素を忘れていて過学習発生 特徴量エンジニアリン

    KaggleのCTR予測コンペで上位10%に入るまでの試行錯誤 - yasuhisa's blog
  • Anomaly Detection in Streams with Extreme Value Theoryを読んだ - yasuhisa's blog

    Anomaly Detection in Streams with Extreme Value Theory Amossys-team/SPOT: SPOT algorithm implementation (with variants) KDD2017の異常検知の論文です。異常検知を行なうとき、何らかの閾値を設定しますがこの閾値の決定は難しいことが多いです(そして精度にはよく効いてくる...)。正規分布のように理論的によく知られていて、解析的にも扱いやすいような分布では、累積分布関数を逆に辿ると「99.9%に対応する閾値はこれ!」と設定することができます。しかし、確率分布を陽に仮定するとそれ以外の分布ではきちんと動かなかったり、データ毎にモデル化をする必要があります。陽に確率分布を仮定しない方法もありますが、そちらはデータが少ないor厳しめのパーセンタイルを指定したいときに難しさがありま

    Anomaly Detection in Streams with Extreme Value Theoryを読んだ - yasuhisa's blog
  • R勉強会第六回

    Rで時系列データってどう扱うの? 時系列オブジェクトを生成 時系列オブジェクトの合併 lhデータ データを覗いてみる UKgasデータ 出力が長いので要約した統計量を知りたい 開始時刻、終了時刻などなどを知りたい 時系列データの一部を取り出したい 時系列データをプロット ガス消費量のプロット 複数種類の時系列データを一度に表示する データを定常にする ラグ処理 実際にやってみる データの定常化 diff関数 自己相関係数 acfを使って、データが定常になるまで差分を取る 答え もう一個練習 答え ちなみに シミュレーションでデータを生成 シミュレーションでデータを生成してみよう sarimaのシミュレーション モデルの同定 偏自己相関係数の直感的理解 自己相関係数、偏自己相関係数から見るAR、MA、ARMAの特徴 ARモデル 使うデータ モデルを推定する arimaモデル ARIMAモデル

    R勉強会第六回
  • 1