タグ

twitterとparquetに関するkimutanskのブックマーク (3)

  • Parquet Hadoop Summit 2013

    Parquet is a columnar storage format for Hadoop data. It was developed by Twitter and Cloudera to optimize storage and querying of large datasets. Parquet provides more efficient compression and I/O compared to traditional row-based formats by storing data by column. Early results show a 28% reduction in storage size and up to a 114% improvement in query performance versus the original Thrift form

    Parquet Hadoop Summit 2013
    kimutansk
    kimutansk 2013/11/04
    入れ子データ形式にも対応したHadoop用カラムナストレージParquet。ClouderaとTwitterが協力して作られていたんですね。
  • Twitter: データ分析基盤改善取り組み - ワザノバ | wazanova.jp

    https://www.facebook.com/photo.php?v=10151697364230687&set=vb.9445547199&type=2&theater TwitterのAnalyticsインフラチームが、データ分析基盤の改善に取り組んできた事例を紹介しています。 1) 背景 4億tweet/日を発信 & 消費しているユーザのアクティビティを、Twitter社内の多くのチームがそれぞれの観点 & 様々な利用形態で分析データを必要とするため、量およびデータの依存関係が、相当大きく複雑なものになっている。Analyticsインフラは、1000ノードあるHadoopのクラスタをいくつかもつ規模。 ストレージフットプリント & I/Oを減らすだけでなく、他の方法でプロセススピードをあげることに取り組んでいる。 2) Parquet (「Hadoop用のカラムナストレージフォー

    kimutansk
    kimutansk 2013/10/28
    Twitterのバッチ処理/スピード処理をまとめたラムダアーキテクチャに対する共通Servingレイヤまで含んだOSSですか。楽しみではありますねぇ。
  • Hadoop用カラムナストレージ「Parquet」正式版をTwitterがオープンソースで公開

    データを列方向に格納することで読み出し性能を向上し、高速な分析を実現する技術は、「カラム型データベース」「カラムナーストレージ」「カラム型データストア」などと呼ばれて注目されています。その技術をHadoopのストレージに持たせることで、Hadoopでもさらに高速な分析を可能にする「Parquet」バージョン1.0を、Twitterがオープンソースで公開しました。 公開したのは7月30日と1カ月ほど前のことで気付くのが少々遅かったのですが、ほかに日語の記事が見当たらなかったので紹介したいと思います。 Parquetとはどのようなソフトウェアなのか、Twitterのブログから少し長めの説明を引用しましょう。 Parquet is an open-source columnar storage format for Hadoop. Its goal is to provide a state

    Hadoop用カラムナストレージ「Parquet」正式版をTwitterがオープンソースで公開
    kimutansk
    kimutansk 2013/09/03
    Hadoop用のカラムナーストレージ来ましたか。列単位でデータ取得できるなら様々なプロダクトに恩恵きそうですね。
  • 1