[B! parquet] dannのブックマーク

dann id:dann

parquetに関するdannのブックマーク (3)

Parquetフォーマット概観 - 発明のための再発明
Parquetは便利なファイル形式で、列志向のフォーマットとしてはデファクトの1つと言っても過言ではないでしょう。ですが、jsonやcsvとは違い、ファイルを見ただけでどんな構造かわかるものではありません。この記事は、Parquetの具体的な構造について記述します。はじめにこの投稿は、Parquetの構造について、バイナリを見ながら確認するものです。ただし、Parquetの大枠に注目した投稿なので、delta encodingやrun-lengthなど、個別の圧縮方法については取り扱いません。 ※ Parquetの作成には https://github.com/parquet-go/parquet-go を使用していますが、goの知識は必要ありません tldr Parquetは以下の構造を持っています。ファイルはRowGroupとメタデータに分かれている RowGroupの中に
dann 2024/09/23
parquet
リンク
Apache Impalaパフォーマンスチューニング #dbts2018
2. 2 © Cloudera, Inc. All rights reserved. 嶋内翔 (しまうちしょう) テクニカルエバンジェリスト兼シニアセールスエンジニアお客様にとって最適なデータ分析基盤の提案をする仕事をしています主な担当業種: 金融業界主な専門分野: 分析データベース略歴 2006年、NEC入社。OSS推進センターでOSSの基盤についての基礎を学ぶ。 2011年、Cloudera入社。サポートエンジニアとして、日本のお客様の技術問い合わせに回答していく傍ら、Hadoopの啓蒙活動に務める。 2015年から現職。自己紹介 3. 3 © Cloudera, Inc. All rights reserved. Clouderaは現在は不可能なことも、データの力によって近い将来可能になると信じています Apache Hadoopの信頼できるリーダー企業
dann 2018/09/25
parquet

impala
リンク
Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
著者/Author: Zbigniew Branowski (Cern) 原文/Original：http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー
dann 2018/09/25
parquet
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx