タグ

ブックマーク / takuti.me (5)

  • Yahoo!の異常検知フレームワーク"EGADS"

    Yahoo!がOSSとして開発している異常検知フレームワーク "EGADS" (Extensible Generic Anomaly Detection System) について書いた次の論文を読んだ: Generic and Scalable Framework for Automated Time-series Anomaly Detection (KDD 2015) リアルタイムなデータをモデリングする種のアルゴリズムの実装とはどうあるべきなのか、という話は難しい。 僕も異常検知や情報推薦のためのアルゴリズムをパッケージ化してみてはいるものの、 時系列データの入力、モデリング、予測、出力といったコンポーネントをいかに切り分けて実装するか バッチとオンラインアルゴリズムのバランスをいかに取るか どこまで自動化して、どこにヒューリスティクスを取り入れる余地を残すか といった点は当に悩ま

    Yahoo!の異常検知フレームワーク"EGADS"
  • 異常検知のための未来予測:オウム返し的手法からHolt-Winters Methodまで

    Holt-Winters Method(別名: Triple Exponential Smoothing)というデータの予測手法がある。これについて素晴らしい解説記事があるので読みながら実装していた。 コードは takuti/anompy にある。 この手法、Graphite が実装しているということもあり、近年ではDevOpsコミュニティを中心に一躍有名になったんだとか。 ここでは解説記事の内容に沿って、Holt-Winters Method に至るまでに知っておくべき手法たちの“気持ち”をまとめる。数式は元記事やWikipediaに譲る。 問題 『連続するN点の時系列データを観測していたとき、N+1点目の値を予測する問題』を考える。 もし次の瞬間の値が予測できれば、そこからデータの“異常”を察知することができる。 たとえばDatadogなどで監視しているシステムのメトリクスを対象とすれ

    異常検知のための未来予測:オウム返し的手法からHolt-Winters Methodまで
  • 推薦システムのためのOSSたち

    情報推薦=機械学習 ではない。 もちろん機械学習アルゴリズムを使えば精度は高くなるかもしれないが、実際は推薦理由の説明が必要であったり、膨大なデータサイズや要求されるパフォーマンスに応えるために、『いかに機械学習をしない選択をするか』も重要になる。 さらに、RecSys2016のLinkedInとQuoraのチュートリアルで語られたように、現実の推薦システムはヒューリスティクスに基づく単純な手法から深層学習まで、複数のものを組み合わせた ハイブリッド なものであることが多い。 ヒューリスティクス/機械学習の混在したハイブリッドな推薦手法 適切な指標による精度の評価とモデルの改善 サービスごとに異なる多様なデータフォーマットの扱い ということを考えると、推薦システム専用の実装 というものが必要になってくる。というわけで、推薦システム構築に使える/参考になるOSSをいくつか紹介する。 ※チョイ

    推薦システムのためのOSSたち
  • 推薦システムのトップ会議RecSys2016に参加した #recsys2016

    推薦システムのトップ会議 RecSys2016 が9月15日から19日までアメリカのボストンで開催され、ワークショップ発表者&学生ボランティアとして参加してきた。これまで学会発表はひとりで行くことが多く、今回も例外ではなかったが、ボランティアのおかげで他の学生との交流や伝説的な研究者との接触が多くてとても楽しめた。みんなもやると良いと思う。 RecSys2016@Boston RecSysは今回で10回目を迎えた推薦システムのトップ会議で、会議の採択率はショートペーパーでも20%という狭き門。僕はワークショップのひとつ Profiling User Preferences for Dynamic Online and Real-Time Recommendations(長い)で、ECサイトとかでよく見られる persistent cold-start という問題と、それに絡めて Fact

    推薦システムのトップ会議RecSys2016に参加した #recsys2016
  • ストリームデータ解析の世界

    機械学習アドベントカレンダー2015 8日目】 ストリームデータ解析 という分野がある。ある生成元から絶えずデータが到来する環境で、いかにそれらを捌くかという話。「時間計算量はほぼ線形であって欲しいし、空間計算量も小さく抑えつつ精度を担保したいよね」ということを考える世界。個人的に最近はそのあたりの情報を追いかけていたので、整理も兼ねてその世界を俯瞰したい。 すごいリンク集 はじめに、この分野で外せないと思うリンクを3つ挙げておく。 ■ SML: Data Streams YahooGoogleの研究所を経てCMUの教授をしているAlex Smola先生の講義の一部(スライド+動画あり)。理論からシステムアーキテクチャまで包括した実際的な機械学習ならこの人。この人の機械学習サマースクールの講義は最高だった。 古典的なものから最近のものまで、代表的なアルゴリズムについて直感的な説明といい

    ストリームデータ解析の世界
  • 1