タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

Treasure Dataとmessagepackに関するkimutanskのブックマーク (1)

  • Treasure DataのPlazmaDBを理解する - Qiita

    こんにちは。Treasure Dataの斉藤です。出張中に時間ができたのでシアトル空港でこの記事を書いています。日語でブログを書くのはものすごく久しぶりなのですが、Treasure Dataの列志向(columnar)圧縮ストレージであるPlazmaDBについて紹介していきたいと思います。 Treasure Dataでは2014年現在まで5兆(trillion)件を超えるレコードが取り込まれており、一秒あたりでは40万以上(!)のレコードを処理しています。 2013年のTwitterでは1秒あたり5,700 tweets処理していたとのことなので、その処理量の大きさが実感できるのではないでしょうか。この量のレコードをそのまま蓄積するのではストレージ量が膨大になってしまいますので、Treasure Dataではレコードを列分解し、MessagePack形式に変換+圧縮処理を施すことでデータ

    Treasure DataのPlazmaDBを理解する - Qiita
    kimutansk
    kimutansk 2014/12/15
    列単位で分割して圧縮するわけで、このあたり最近のHadoop系カラムナストレージと圧縮率/圧縮時の計算量や読み込み時の効率がどれくらい異なるのかが気になるところですね。
  • 1