タグ

file formatに関するyassのブックマーク (2)

  • RCFile,Parquet,ORCFile

    この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コードレベルの詳細な違いについては,次回以降で見ていきます. RCFile の復習 RCFile は Record Columnar File の略で,Hive から利用できるストレージフォーマットです.特に,HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています. HDFS/S3 といったストレージでは,基的にデータを計算機間で同じ負荷になるようにデータを分散配置します.このため,従来の列指向ストレージフォーマットのように適当に列毎に

    yass
    yass 2013/03/18
    "index には各列のMin/Maxの値が入っており / データの読み飛ばしを効率的に行うための10000レコードごとのポインタ / footer には stripes の一覧と,型と行番号,Count, min, max, sum といった集計処理用"
  • Trevni: A Column File Format

    Version 0.1 DRAFT This document is the authoritative specification of a file format. Its intent is to permit compatible, independent implementations that read and/or write files in this format. IntroductionData sets are often described as a table composed of rows and columns. Each record in the dataset is considered a row, with each field of the record occupying a different column. Writing records

  • 1