初めまして、2019年8月にヤフーのデータプラットフォームチームのインターンシップに参加した山添です。今回はインターンで検証を行ったカラムナフォーマットにおけるエンコーディング方式について紹介します。本ブログでは、特に数値型のエンコーディング方式について、データ圧縮率への効用を確認します。 カラムナフォーマットとは 昨今のデータ社会では、ログデータや購買データ、位置情報データなどさまざまなデータがものすごいスピードで生み出されています。企業ではそのような大規模なデータを蓄えておく必要があります。 私たち学生の間で最も親しみのあるファイルフォーマットは、JSON や CSV などのテキストフォーマットだと思います。これらのフォーマットは、データ保存時にスキーマを必要としない、人間からの可視性が高いなどの利点がありますが、データの圧縮効率が低いことや、処理性能の低さなどのデメリットもあります。
dev@parquet.apache.org で、parquet-mr の古いモジュールの廃止案が出ています。廃止対象の中には Parquet ファイルの情報を出力する Command Line Tool の parquet-tools も含まれています。 [DISCUSS] Remove old modules? parquet-tools は Parquet ファイルの情報を確認するのに便利だったのですが、parquet-cli もあるので 2つ CLI をメンテするのはどうなんだろう?という話になっています。 私は parquet-cli は使ったことが無かったので、使い方を調べてみました。(2019/02/17 時点) なお私が知る限りですが、「parquet-cli」という名前のツールは parquet-mr に含まれている Java のツールと、chhantyal/parque
Data / MLEngineering Data Analytics with Presto and Apache Parquet at UberJuly 11, 2017 / Global From determining the most convenient rider pickup points to predicting the fastest routes, Uber uses data-driven analytics to create seamless trip experiences. Within engineering, analytics inform decision-making processes across the board. As we expand to new markets, the ability to accurately and qui
The Hadoop ecosystem has standardized on columnar formats—Apache Parquet for on-disk storage and Apache Arrow for in-memory. With this trend, deep integration with columnar formats is a key differentiator for big data technologies. Vertical integration from storage to execution greatly improves the latency of accessing data by pushing projections and filters to the storage layer, reducing time spe
Amazon Kinesis Data Firehose で Apache Parquet と Apache ORC フォーマットが追加サポートされるようになりました。これにより、コスト効率の良いストレージと分析のため Amazon S3 に対しリアルタイムのデータをストリーミングできます。 Apache Parquet と Apache ORC は柱状のデータフォーマットで、データをより効果的に、コスト効率良く保存し、クエリを実行できるようになります。これからは、ご使用の Kinesis Data Firehose のストリーム配信を構成し、S3 バケットにデータを配信する前に、Parquet または ORC フォーマットに自動変換するよう設定できます。コーディングの必要はなく、Amazon Athena および Amazon Redshift Spectrum を使用することで S3
Using Apache Arrow, Calcite, and Parquet to Build a Relational Cache From DataEngConf 2017 - Everybody wants to get to data faster. As we move from more general solution to specific optimization techniques, the level of performance impact grows. This talk will discuss how layering in-memory caching, columnar storage and relational caching can combine to provide a substantial improvement in overall
Using Apache Arrow, Calcite and Parquet to build a Relational Cache Everybody wants to get to data faster. As we move from more general solution to specific optimization techniques, the level of performance impact grows. This talk will discuss how layering in-memory caching, columnar storage and relational caching can combine to provide a substantial improvement in overall data science and analyti
※当ブログではアフィリエイト広告を利用しています。 Apache Hive のテーブルでサポートされているファイルフォーマットのPARQUETは、ファイル単体では中身を確認するのが困難です。 Parquet ファイルを検査できるツール parquet-tools を使って中身を確認してみたので、その方法をメモします。 parquet-tools とは Apache Parquet が公開している Java ベースのコマンドラインツールです。Parquet ファイルの中身・スキーマ・メタ情報などをコマンドラインから簡単に確認することができます。 ソースコードは GitHub で公開されています。 GitHub – apache/parquet-mr at parquet-1.11.x ※2021/01/16追記 masterbranch ではこちらのCommitでparquet-toolsか
備忘録がわりのメモ: VLDBに「SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures」というIBMの研究社による論文が公開されていました。 http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf ParquetとImpala、RCFileとHive、ORCとHive+TezなどをTPC-DSを使ったベンチマークの比較と考察があり、かなり興味深いです。最新バージョンでの比較ではないですが、かなりいろんな角度から比較をしているようなので、この夏に時間をかけてゆっくり読みたいところ。 #HDFS cachingの恩恵などもあるので、Imapala1.4はもっと速い(はず)
Google グループでは、オンライン フォーラムやメール ベースのグループを作成したり、こうしたフォーラムやグループに参加したりすることで、大勢のユーザーと情報の共有やディスカッションを行うことができます。
この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コードレベルの詳細な違いについては,次回以降で見ていきます. RCFile の復習 RCFile は Record Columnar File の略で,Hive から利用できるストレージフォーマットです.特に,HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています. HDFS/S3 といったストレージでは,基本的にデータを計算機間で同じ負荷になるようにデータを分散配置します.このため,従来の列指向ストレージフォーマットのように適当に列毎に
Columnar storage is a popular technique to optimize analytical workloads in parallel RDBMs. The performance and compression benefits for storing and processing large amounts of data are well documented in academic literature as well as several commercial analytical databases. The goal is to keep I/O to a minimum by reading from a disk only the data required for the query. Using Parquet at Twitter,
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く