nabe_jwのブックマーク - はてなブックマーク

巨大データベースのスケールアップと引越作業 | DACエンジニアブログ：アドテクゑびす界
はじめにビッグデータ解析部でオーディエンスデータ解析基盤の開発、運用を担当している Mike です。弊社ではインターネット広告配信ログをはじめとする「ビッグデータ」と呼ぶにふさわしいデータボリュームを扱うオーディエンスデータ解析基盤を構築しています。今秋、そのうちの１構成要素である、データサイズ16TBの巨大データベースをスケールアップするリプレイスを実施しました。このような巨大データベースのリプレイスはそうそうあることでもないので、新旧データベースの性能比較に加え、引越作業の工夫や注意点についても書いてみたいと思います。データベーススケールアップの内容対象となるデータベースは、IBM PureData System for Analytics （製品情報ページ）という超高速・大容量データベースです。以前 Netezza と呼ばれていたので、”IBM PureData Syste
nabe_jw 2019/09/03
リンク
HyperLoglogでcount distinctを速くする | DACエンジニアブログ：アドテクゑびす界
こんにちは。俺やで。 HyperLoglogについて書きます。おもしろいです。名前が。 ■1. HyperLoglogとは？ count distinctを速くするアルゴリズム以前、Minhashについて書きました。（Treasure Dataさんのブログにも載せていただきました。ありがとうございます。） HivemallでMinhash！〜似てる記事を探し出そう。〜 Build a Simple Recommendation Engine with Hivemall and Minhash HyperLoglogもMinhash同様乱択アルゴリズムを応用したものです！ビッグデータのエンジニアとかデータアナリストであれば、count distinctする機会はめちゃめちゃあると思うのですが、「おせーよ。早く結果返せよ」と思うこともめちゃめちゃあるのでは。なぜ遅いかと言うと正直にすべ
nabe_jw 2018/09/28
リンク
1

はてなブックマーク

タグ

ブックマーク / yebisupress.dac.co.jp (2)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / yebisupress.dac.co.jp (2)

巨大データベースのスケールアップと引越作業 | DACエンジニアブログ：アドテクゑびす界

HyperLoglogでcount distinctを速くする | DACエンジニアブログ：アドテクゑびす界

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス