[B! twitter][parquet] kimutanskのブックマーク

kimutansk id:kimutansk

twitterとparquetに関するkimutanskのブックマーク (3)

Parquet Hadoop Summit 2013
Parquet is a columnar storage format for Hadoop data. It was developed by Twitter and Cloudera to optimize storage and querying of large datasets. Parquet provides more efficient compression and I/O compared to traditional row-based formats by storing data by column. Early results show a 28% reduction in storage size and up to a 114% improvement in query performance versus the original Thrift form
kimutansk 2013/11/04
入れ子データ形式にも対応したHadoop用カラムナストレージParquet。ClouderaとTwitterが協力して作られていたんですね。

Parquet

hadoop

Twitter
リンク
Twitter: データ分析基盤改善取り組み - ワザノバ | wazanova.jp
https://www.facebook.com/photo.php?v=10151697364230687&set=vb.9445547199&type=2&theater TwitterのAnalyticsインフラチームが、データ分析基盤の改善に取り組んできた事例を紹介しています。 1) 背景４億tweet/日を発信 & 消費しているユーザのアクティビティを、Twitter社内の多くのチームがそれぞれの観点 & 様々な利用形態で分析データを必要とするため、量およびデータの依存関係が、相当大きく複雑なものになっている。Analyticsインフラは、1000ノードあるHadoopのクラスタをいくつかもつ規模。ストレージフットプリント & I/Oを減らすだけでなく、他の方法でプロセススピードをあげることに取り組んでいる。 2) Parquet （「Hadoop用のカラムナストレージフォー
kimutansk 2013/10/28
Twitterのバッチ処理／スピード処理をまとめたラムダアーキテクチャに対する共通Servingレイヤまで含んだOSSですか。楽しみではありますねぇ。

twitter

parquet
リンク
Hadoop用カラムナストレージ「Parquet」正式版をTwitterがオープンソースで公開
データを列方向に格納することで読み出し性能を向上し、高速な分析を実現する技術は、「カラム型データベース」「カラムナーストレージ」「カラム型データストア」などと呼ばれて注目されています。その技術をHadoopのストレージに持たせることで、Hadoopでもさらに高速な分析を可能にする「Parquet」バージョン1.0を、Twitterがオープンソースで公開しました。公開したのは7月30日と1カ月ほど前のことで気付くのが少々遅かったのですが、ほかに日本語の記事が見当たらなかったので紹介したいと思います。 Parquetとはどのようなソフトウェアなのか、Twitterのブログから少し長めの説明を引用しましょう。 Parquet is an open-source columnar storage format for Hadoop. Its goal is to provide a state
kimutansk 2013/09/03
Hadoop用のカラムナーストレージ来ましたか。列単位でデータ取得できるなら様々なプロダクトに恩恵きそうですね。

hadoop

Parquet

twitter
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx