ブックマーク / yebisupress.dac.co.jp (2)

  • 巨大データベースのスケールアップと引越作業 | DACエンジニアブログ:アドテクゑびす界

    はじめに ビッグデータ解析部でオーディエンスデータ解析基盤の開発、運用を担当している Mike です。 弊社ではインターネット広告配信ログをはじめとする「ビッグデータ」と呼ぶにふさわしいデータボリュームを扱うオーディエンスデータ解析基盤を構築しています。今秋、そのうちの1構成要素である、データサイズ16TBの巨大データベースをスケールアップするリプレイスを実施しました。このような巨大データベースのリプレイスはそうそうあることでもないので、新旧データベースの性能比較に加え、引越作業の工夫や注意点についても書いてみたいと思います。 データベーススケールアップの内容 対象となるデータベースは、IBM PureData System for Analytics (製品情報ページ) という超高速・大容量データベースです。以前 Netezza と呼ばれていたので、”IBM PureData Syste

    巨大データベースのスケールアップと引越作業 | DACエンジニアブログ:アドテクゑびす界
    nabe_jw
    nabe_jw 2019/09/03
  • HyperLoglogでcount distinctを速くする | DACエンジニアブログ:アドテクゑびす界

    こんにちは。俺やで。 HyperLoglogについて書きます。おもしろいです。名前が。 ■1. HyperLoglogとは? count distinctを速くするアルゴリズム 以前、Minhashについて書きました。 (Treasure Dataさんのブログにも載せていただきました。ありがとうございます。) HivemallでMinhash!〜似てる記事を探し出そう。〜 Build a Simple Recommendation Engine with Hivemall and Minhash HyperLoglogもMinhash同様乱択アルゴリズムを応用したものです! ビッグデータのエンジニアとかデータアナリストであれば、count distinctする機会はめちゃめちゃあると思うのですが、「おせーよ。早く結果返せよ」と思うこともめちゃめちゃあるのでは。 なぜ遅いかと言うと正直にすべ

    HyperLoglogでcount distinctを速くする | DACエンジニアブログ:アドテクゑびす界
    nabe_jw
    nabe_jw 2018/09/28
  • 1