タグ

orcfileとColumnar Storageに関するyassのブックマーク (3)

  • PostgreSQL9.3をカラム指向ストレージ(cstore_fdw)に対応させる

    分析向けデータベースを展開している CitusDB が PostgreSQL を列指向ストレージ対応させる foreign data wrapper(cstore_fdw) をオープンソース化したので、とりあえずインストールしてみた。 cstore_fdw の特徴 github の cstore_fdw に特徴がまとめられている。 http://citusdata.github.io/cstore_fdw/ 箇条書きすると Faster Analytics – Reduce analytics query disk and memory use by 10x Lower Storage – Compress data by 3x Easy Setup – Deploy as standard PostgreSQL extension Flexibility – Mix row- and c

    PostgreSQL9.3をカラム指向ストレージ(cstore_fdw)に対応させる
    yass
    yass 2014/04/21
    " pglz 圧縮により 圧縮率 3.5倍 / クエリー速度が2倍 / pglz 圧縮した cstore では disk I/O が 1/10 になった / といったことが書かれている "
  • Hadoop Hive - ORC Files

    ORC File Format File Structure Stripe Structure HiveQLSyntax Serialization and Compression Integer Column Serialization String Column Serialization Compression ORC File Format The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performance when Hive is readi

    yass
    yass 2013/09/23
    " Index data includes min and max values for each column and the row positions within each column (A bit field or bloom filter could also be included.) / present bit stream: is the value non-null? "
  • RCFile,Parquet,ORCFile

    この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コードレベルの詳細な違いについては,次回以降で見ていきます. RCFile の復習 RCFile は Record Columnar File の略で,Hive から利用できるストレージフォーマットです.特に,HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています. HDFS/S3 といったストレージでは,基的にデータを計算機間で同じ負荷になるようにデータを分散配置します.このため,従来の列指向ストレージフォーマットのように適当に列毎に

    yass
    yass 2013/03/18
    "index には各列のMin/Maxの値が入っており / データの読み飛ばしを効率的に行うための10000レコードごとのポインタ / footer には stripes の一覧と,型と行番号,Count, min, max, sum といった集計処理用"
  • 1