[B! Treasure Data][messagepack] kimutanskのブックマーク

kimutansk id:kimutansk

Treasure Dataとmessagepackに関するkimutanskのブックマーク (1)

Treasure DataのPlazmaDBを理解する - Qiita
こんにちは。Treasure Dataの斉藤です。出張中に時間ができたのでシアトル空港でこの記事を書いています。日本語でブログを書くのはものすごく久しぶりなのですが、Treasure Dataの列志向(columnar)圧縮ストレージであるPlazmaDBについて紹介していきたいと思います。 Treasure Dataでは2014年現在まで5兆(trillion)件を超えるレコードが取り込まれており、一秒あたりでは40万以上(!)のレコードを処理しています。 2013年のTwitterでは１秒あたり5,700 tweets処理していたとのことなので、その処理量の大きさが実感できるのではないでしょうか。この量のレコードをそのまま蓄積するのではストレージ量が膨大になってしまいますので、Treasure Dataではレコードを列分解し、MessagePack形式に変換＋圧縮処理を施すことでデータ
kimutansk 2014/12/15
列単位で分割して圧縮するわけで、このあたり最近のHadoop系カラムナストレージと圧縮率／圧縮時の計算量や読み込み時の効率がどれくらい異なるのかが気になるところですね。

Treasure Data

messagepack
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx