タグ

bigdataに関するmiguchiのブックマーク (3)

  • Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita

    From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluentd Meetupのデモでは9億件を7秒程度で検索していたが、BigQueryの真の実力はこれより1〜2ケタ上だからだ。ちょっと手元で少し大きめのテーブルで試してみたら、120億行の正規表現マッチ付き集計が5秒で完了した。論より証拠で、デモビデオ(1分16秒)を作ってみた: From The Speed of Google BigQuery これは速すぎる。何かのインチキである(最初にデモを見た時そう思った)。正規表現をいろいろ変えてみてもスピードは変わらない。つまり、インデックスを事前構築できないクエリに対してこのスピードなのである。 価格も安い。さすがに120億行のクエリは1回で200円もかかって気軽に実行できなさそうであるが、1.2億

    Googleの虎の子「BigQuery」をFluentdユーザーが使わない理由がなくなった理由 #gcpja - Qiita
  • In-Stream Big Data Processing

    The shortcomings and drawbacks of batch-oriented data processing were widely recognized by the Big Data community quite a long time ago. It became clear that real-time query processing and in-stream processing is the immediate need in many practical applications. In recent years, this idea got a lot of traction and a whole bunch of solutions like Twitter’s Storm, Yahoo’s S4, Cloudera’s Impala, Apa

    In-Stream Big Data Processing
  • すべての消費者は監視下にある(前編) - ビッグデータ - TECHNOLOGY - CIO Online

    「我々は皆さんについて、皆さんが我々に望む以上のことを知っている」。エクイファクスのCIO、デーブ・ウェッブ氏は、ビッグデータを生かした同社の取り組みに自信を持っている。 photo:Stan Kaady 米国の信用情報機関大手3社の一角を占めるエクイファクス。同社は米国のすべての成人と国外16カ国の人々の財務データを保存、管理している。だが、同社が持っている情報のうち、昔ながらのクレジット・スコア(個人の信用力を数値化した指標)に反映されるものはごく一部にすぎない。多くは、一見してクレジット・スコアとは関係ないと思われる情報である。 例えば、電話番号や住所が同じ人々、個人間の“自明でない”関係、歯科治療ローン、雑誌購読、賃貸履歴、不動産資産、投資資産、小売店での購入、提出している所得税申告書の種類、結婚歴、勤務先、公共料金支払い、CATVアカウント、前科、債務所得比率、住所変更、自動車

  • 1