タグ

StreamDataに関するInoHiroのブックマーク (5)

  • ストリームデータ解析の世界

    機械学習アドベントカレンダー2015 8日目】 ストリームデータ解析 という分野がある。ある生成元から絶えずデータが到来する環境で、いかにそれらを捌くかという話。「時間計算量はほぼ線形であって欲しいし、空間計算量も小さく抑えつつ精度を担保したいよね」ということを考える世界。個人的に最近はそのあたりの情報を追いかけていたので、整理も兼ねてその世界を俯瞰したい。 すごいリンク集 はじめに、この分野で外せないと思うリンクを3つ挙げておく。 ■ SML: Data Streams YahooGoogleの研究所を経てCMUの教授をしているAlex Smola先生の講義の一部(スライド+動画あり)。理論からシステムアーキテクチャまで包括した実際的な機械学習ならこの人。この人の機械学習サマースクールの講義は最高だった。 古典的なものから最近のものまで、代表的なアルゴリズムについて直感的な説明といい

    ストリームデータ解析の世界
  • How does flajolet martin sketch works?

  • Stream(SQL) Event Processing with Esper - igvita.com

    By Ilya Grigorik on May 27, 2011 The growth of both the types and the amount of data generated by servers, users, and applications have resulted in a number of recent trends and innovations: NoSQL, rise of popularity of Hadoop, and dozens of higher-level map-reduce frameworks. However, the batch-processing model imposed by map-reduce style of processing is not always a great fit either, especially

  • 大量のデータから一定個数のデータをランダムに採取するReservoirサンプリング - 本当は怖いHPC

    大量の実験データがあるが、馬鹿正直に全部プロット等すると時間がかかりすぎる。実験の初期段階とかで試行錯誤しながら素早く作業をしたい時には、一定個数のデータをランダムに抜き出してプロット等したい事が多い。 そのとき、全体の個数の見当がついていれば、大体の見当で割合を設定して確率的に取得すればよい。例えば、データの全数が約100万個で、とりあえず1000個取り出したいなら、乱数を用いて0.1%の割合でデータを採取すれば良い(ぴったり1000個にはならないだろうがそれは問題ではない)。 全体の個数が不明の場合はそうはいかない。最初に全体の個数を数えてから割合を設定しようとすると、全データを2回走査、つまり2パスの操作が必要になるし、標準入力からデータが流れてくる場合(いわゆるストリーム処理)の場合は、個数を取得するためには全体を保存しておかなければならない。これらの操作は、大規模なデータにおいて

    大量のデータから一定個数のデータをランダムに採取するReservoirサンプリング - 本当は怖いHPC
  • neue cc - C#とLinq to JsonとTwitterのChirpUserStreamsとReactive Extensions

    何か盛り沢山になったのでタイトルも盛り沢山にしてみました。SEO(笑) 最近話題のTwitterのChirpUserStreamsを使ってみましょー。ChirpUserStreamsとは、自分のタイムラインのあらゆる情報がストリームAPIによりリアルタイムで取得出来る、というもの。これを扱うには、まずはストリームをIEnumerable化します。そのまま扱うよりも、一度IEnumerable化すると非常に触りやすくなる、というのがLinq時代の鉄則です。C#でのストリームAPIの取得方法は以前にも記事にしましたが、かなり汚かったのでリライト。WebClient愛してる。 public static IEnumerable<XElement> ConnectChirpStream(string username, string password) { const string StreamA

  • 1