タグ

Columnarに関するkimutanskのブックマーク (3)

  • Apache Arrow Homepage

    Format Apache Arrow defines a language-independent columnar memory format for flat and hierarchical data, organized for efficient analytic operations on modern hardware like CPUs and GPUs. The Arrow memory format also supports zero-copy reads for lightning-fast data access without serialization overhead. Learn more about the design or read the specification. Libraries Arrow's libraries implement t

    Apache Arrow Homepage
    kimutansk
    kimutansk 2016/02/17
    カラムナー型のインメモリのフォーマット定義で、ネイティブなベクトル最適化が可能、システム間やり取りを共通フォーマットで可能・・フォーマットとライブラリのセット?
  • Parquet Strata/Hadoop World, New York 2013

    Parquet is a columnar storage format for Hadoop data. It was developed collaboratively by Twitter and Cloudera to address the need for efficient analytics on large datasets. Parquet provides more efficient compression and I/O compared to row-based formats by only reading and decompressing the columns needed by a query. It has been adopted by many companies for analytics workloads involving terabyt

    Parquet Strata/Hadoop World, New York 2013
    kimutansk
    kimutansk 2014/10/24
    RowGroup毎にColumnChankを用意することでカラムベースの読み込みを効率化しているわけですか。なるほど・・とはいえ、読み込む際に相応の対応が必要にはなりますが。
  • RCFile,Parquet,ORCFile

    この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コードレベルの詳細な違いについては,次回以降で見ていきます. RCFile の復習 RCFile は Record Columnar File の略で,Hive から利用できるストレージフォーマットです.特に,HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています. HDFS/S3 といったストレージでは,基的にデータを計算機間で同じ負荷になるようにデータを分散配置します.このため,従来の列指向ストレージフォーマットのように適当に列毎に

    kimutansk
    kimutansk 2014/10/23
    カラムナーのファイルの形式はぱっと見た感じよくわからない形式になっているので・・・なるほど。
  • 1