タグ

rcfileに関するyassのブックマーク (6)

  • Scaling the Facebook data warehouse to 300 PB

    At Facebook, we have unique storage scalability challenges when it comes to our data warehouse. Our warehouse stores upwards of 300 PB of Hive data, with an incoming daily rate of about 600 TB. In the last year, the warehouse has seen a 3x growth in the amount of data stored. Given this growth trajectory, storage efficiency is and will continue to be a focus for our warehouse infrastructure. There

    Scaling the Facebook data warehouse to 300 PB
    yass
    yass 2014/04/20
    " we evolved ORCFile to provide a significant boost in compression ratios over RCFile on our warehouse data, going from 5x to 8x. Additionally, on a large representative set of queries and data from our warehouse, we found that the Facebook ORCFile writer is 3x better on average than ORCFile. "
  • Evaluation of cloudera impala 1.1

    This document evaluates the performance of Cloudera Impala 1.1 using two clusters. It finds that RCFile with Snappy compression provides the fastest performance for both Hive and Impala on the clusters for reading-only workloads. Parquet with Snappy may be fastest for larger tables. Issues were identified with memory limits during Parquet table creation and were later fixed. The evaluation shows I

    Evaluation of cloudera impala 1.1
  • ORCFile in HDP 2: Better Compression, Better Performance - Cloudera Blog

    ORCFile in HDP 2: Better Compression, Better Performance The upcoming Hive 0.12 is set to bring some great new advancements in the storage layer in the forms of higher compression and better query performance. Higher Compression ORCFile was introduced in Hive 0.11 and offered excellent compression, delivered through a number of techniques including run-length encoding, dictionary encoding for stri

    ORCFile in HDP 2: Better Compression, Better Performance - Cloudera Blog
    yass
    yass 2013/09/23
    " ORCFile was introduced in Hive 0.11 and offered excellent compression, delivered through a number of techniques including run-length encoding, dictionary encoding for strings and bitmap encoding. "
  • RCFile,Parquet,ORCFile

    この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コードレベルの詳細な違いについては,次回以降で見ていきます. RCFile の復習 RCFile は Record Columnar File の略で,Hive から利用できるストレージフォーマットです.特に,HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています. HDFS/S3 といったストレージでは,基的にデータを計算機間で同じ負荷になるようにデータを分散配置します.このため,従来の列指向ストレージフォーマットのように適当に列毎に

    yass
    yass 2013/03/18
    "index には各列のMin/Maxの値が入っており / データの読み飛ばしを効率的に行うための10000レコードごとのポインタ / footer には stripes の一覧と,型と行番号,Count, min, max, sum といった集計処理用"
  • Impala Q&A - still deeper

    2012/11/7に開催されたCloudera World Tokyoに参加してきました。 編については他の人がまとめてくれるはずですので省略。 懇親会では米国Cloudera社のCTO、Dr. Amr Awadallah氏に直接Impalaの疑問に答えていただきました。非常に貴重な話を聞けたのでまとめておきます。(公開許可済み) その場でメモを取っていたわけではなく思い出しながらのまとめなので、一緒に聞いていた方、clouderaの方は補足をお願いします。 Q&A Q. なぜJavaでなくてC++で実装したか? A. ImpalaのメインデザイナーがGoogleC++を使って分散処理(Dremelのこと?)を実装した人物であるのと、JVMの起動コストがレイテンシーの増加につながるため 補足: この人でしょうか Q. 1ノードに偏ったデータを読む必要があるクエリがくると低レイテンシーを

    yass
    yass 2013/02/06
    "現場ではRCFileの方がよいが、将来的にはtrevniの方がパフォーマンスがよいので推奨。RCFileとtrevniに仕様上の大きな違いはないが、Doug Cuttingによるtrevniの実装が優れている。"
  • RCFile - Wikipedia

    This simple table includes an employee identifier (EmpId), name fields (Lastname and Firstname) and a salary (Salary). This two-dimensional format exists only in theory, in practice, storage hardware requires the data to be serialized into one form or another. In MapReduce-based systems, data is normally stored on a distributed system, such as Hadoop Distributed File System (HDFS), and different d

  • 1