[B! parquet] msyktのブックマーク

msykt id:msykt

parquetに関するmsyktのブックマーク (23)

Windows Editor for Parquet Files - Stack Overflow
msykt 2020/04/01
確かに Parquet ファイルのエディタがあったら良いかも

parquet
リンク
圧縮効率のよいカラムナフォーマット〜 Yosegi や ORC のエンコード方式調査
初めまして、2019年8月にヤフーのデータプラットフォームチームのインターンシップに参加した山添です。今回はインターンで検証を行ったカラムナフォーマットにおけるエンコーディング方式について紹介します。本ブログでは、特に数値型のエンコーディング方式について、データ圧縮率への効用を確認します。カラムナフォーマットとは昨今のデータ社会では、ログデータや購買データ、位置情報データなどさまざまなデータがものすごいスピードで生み出されています。企業ではそのような大規模なデータを蓄えておく必要があります。私たち学生の間で最も親しみのあるファイルフォーマットは、JSON や CSV などのテキストフォーマットだと思います。これらのフォーマットは、データ保存時にスキーマを必要としない、人間からの可視性が高いなどの利点がありますが、データの圧縮効率が低いことや、処理性能の低さなどのデメリットもあります。
msykt 2019/09/24
parquet

orc
リンク
parquet-viewer - Visual Studio Marketplace
msykt 2019/08/28
parquet-tools を呼び出して parquet を JSON に変換して表示する extension らしい

parquet
リンク
parquet-cli-java
dev@parquet.apache.org で、parquet-mr の古いモジュールの廃止案が出ています。廃止対象の中には Parquet ファイルの情報を出力する Command Line Tool の parquet-tools も含まれています。 [DISCUSS] Remove old modules? parquet-tools は Parquet ファイルの情報を確認するのに便利だったのですが、parquet-cli もあるので 2つ CLI をメンテするのはどうなんだろう？という話になっています。私は parquet-cli は使ったことが無かったので、使い方を調べてみました。(2019/02/17 時点) なお私が知る限りですが、「parquet-cli」という名前のツールは parquet-mr に含まれている Java のツールと、chhantyal/parque
msykt 2019/02/19
parquet-cli(java)について書いた。

parquet
リンク
Engineering Data Analytics with Presto and Parquet at Uber
Data / MLEngineering Data Analytics with Presto and Apache Parquet at UberJuly 11, 2017 / Global From determining the most convenient rider pickup points to predicting the fastest routes, Uber uses data-driven analytics to create seamless trip experiences. Within engineering, analytics inform decision-making processes across the board. As we expand to new markets, the ability to accurately and qui
msykt 2018/11/22
あとで読む

presto

parquet
リンク
GitHub - fivetran/truffle-sql: Experimental data-lake implemented using Truffle / Graal
msykt 2018/10/08
どこまで作ってあるか分からないけど、あとで見てみる

calcite

parquet
リンク
Apache Carbondata: An Indexed Columnar File Format for Interactive Query with Spark SQL: Spark Summit East talk by Jacky Li and Jihong Ma
msykt 2018/09/16
columnar

parquet
リンク
GitHub - cldellow/sqlite-parquet-vtable: A SQLite vtable extension to read Parquet files
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session.
msykt 2018/06/30
“A SQLite virtual table extension to expose Parquet files as SQL tables.”

parquet
リンク
The columnar roadmap: Apache Parquet and Apache Arrow - DataWorks Summit DataWorks Summit
The Hadoop ecosystem has standardized on columnar formats—Apache Parquet for on-disk storage and Apache Arrow for in-memory. With this trend, deep integration with columnar formats is a key differentiator for big data techno logies. Vertical integration from storage to execution greatly improves the latency of accessing data by pushing projections and filters to the storage layer, reducing time spe
msykt 2018/06/21
parquet

arrow
リンク
Amazon Kinesis Data Firehose で Apache Parquet または ORC フォーマットのデータをリアルタイムでストリーミング
Amazon Kinesis Data Firehose で Apache Parquet と Apache ORC フォーマットが追加サポートされるようになりました。これにより、コスト効率の良いストレージと分析のため Amazon S3 に対しリアルタイムのデータをストリーミングできます。 Apache Parquet と Apache ORC は柱状のデータフォーマットで、データをより効果的に、コスト効率良く保存し、クエリを実行できるようになります。これからは、ご使用の Kinesis Data Firehose のストリーム配信を構成し、S3 バケットにデータを配信する前に、Parquet または ORC フォーマットに自動変換するよう設定できます。コーディングの必要はなく、Amazon Athena および Amazon Redshift Spectrum を使用することで S3
msykt 2018/05/20
変換処理が減る。素晴らしい。“これからは、ご使用の Kinesis Data Firehose のストリーム配信を構成し、S3 バケットにデータを配信する前に、Parquet または ORC フォーマットに自動変換するよう設定できます。”

parquet

kinesis
リンク
From Flat Files to Deconstructed Database: The Evolution and Future of the Big Data Ecosystem
msykt 2018/05/05
Parquetの開発者のJulienの今後のBig Data Ecosystemの話。彼から見たArrowの使いどころが示されていて面白い。※スライドのダウンロードには、名前、メールアドレス、ポジション？の入力が必要

parquet

arrow
リンク
Using Apache Arrow, Calcite, and Parquet to Build a Relational Cache
Using Apache Arrow, Calcite, and Parquet to Build a Relational Cache From DataEngConf 2017 - Everybody wants to get to data faster. As we move from more general solution to specific optimization techniques, the level of performance impact grows. This talk will discuss how layering in-memory caching, columnar storage and relational caching can combine to provide a substantial improvement in overall
msykt 2017/11/16
これ、見たかったヤツだ。スライド公開されてた。

parquet

arrow

calcite
リンク
Using Apache Arrow, Calcite and Parquet to build a Relational Cache
Using Apache Arrow, Calcite and Parquet to build a Relational Cache Everybody wants to get to data faster. As we move from more general solution to specific optimization techniques, the level of performance impact grows. This talk will discuss how layering in-memory caching, columnar storage and relational caching can combine to provide a substantial improvement in overall data science and analyti
msykt 2017/10/09
この話聴きたいけどNYか…

arrow

calcite

parquet
リンク
カラムナフォーマットのきほん
2017/05/18 BigData-JAWS 勉強会での発表資料です。 Explanation of Columnar format such as Parquet and ORC in japanese.
msykt 2017/05/28
parquet
リンク
parquet-toolsを使ってParquetファイルの中身やスキーマを確認する方法 | Lancork
※当ブログではアフィリエイト広告を利用しています。 Apache Hive のテーブルでサポートされているファイルフォーマットのPARQUETは、ファイル単体では中身を確認するのが困難です。 Parquet ファイルを検査できるツール parquet-tools を使って中身を確認してみたので、その方法をメモします。 parquet-tools とは Apache Parquet が公開している Java ベースのコマンドラインツールです。Parquet ファイルの中身・スキーマ・メタ情報などをコマンドラインから簡単に確認することができます。ソースコードは GitHub で公開されています。 GitHub – apache/parquet-mr at parquet-1.11.x ※2021/01/16追記 masterbranch ではこちらのCommitでparquet-toolsか
msykt 2017/02/04
こんなツールあるのか。知らなかった

parquet
リンク
VLDBにSQL on Hadoopの論文が出ています
備忘録がわりのメモ: VLDBに「SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures」というIBMの研究社による論文が公開されていました。 http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf ParquetとImpala、RCFileとHive、ORCとHive+TezなどをTPC-DSを使ったベンチマークの比較と考察があり、かなり興味深いです。最新バージョンでの比較ではないですが、かなりいろんな角度から比較をしているようなので、この夏に時間をかけてゆっくり読みたいところ。＃HDFS cachingの恩恵などもあるので、Imapala1.4はもっと速い（はず）
msykt 2014/09/09
*あとで読む

hive

parquet

rcfile

orcfile
リンク
Google グループ
Google グループでは、オンラインフォーラムやメールベースのグループを作成したり、こうしたフォーラムやグループに参加したりすることで、大勢のユーザーと情報の共有やディスカッションを行うことができます。
msykt 2014/09/07
parquet

json
リンク
RCFile，Parquet，ORCFile
この2ヶ月で，Cloudera/Twitter，Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました．Parquet と ORCFile です．この記事では，まず RCFile の復習をして，その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います．コードレベルの詳細な違いについては，次回以降で見ていきます． RCFile の復習 RCFile は　Record Columnar File の略で，Hive から利用できるストレージフォーマットです．特に，HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています． HDFS/S3 といったストレージでは，基本的にデータを計算機間で同じ負荷になるようにデータを分散配置します．このため，従来の列指向ストレージフォーマットのように適当に列毎に
msykt 2014/08/25
素晴らしいまとめ。あとで読み直す

parquet

orcfile

rcfile
リンク
[PARQUET-8] [parquet-scrooge] mvn eclipse:eclipse fails on parquet-scrooge - ASF JIRA
msykt 2014/08/23
すでに上がってる。でもunresolveかー。はぁ

parquet

scrooge
リンク
Dremel made simple with Parquet
Columnar storage is a popular technique to optimize analytical workloads in parallel RDBMs. The performance and compression benefits for storing and processing large amounts of data are well documented in academic literature as well as several commercial analytical databases. The goal is to keep I/O to a minimum by reading from a disk only the data required for the query. Using Parquet at Twitter,
msykt 2014/08/20
DremelのデータモデルのDefinition levelsとRepetition levelsについて分かりやすく解説されている

dremel

parquet
リンク
1 2 次のページ