タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

parquetに関するdannのブックマーク (3)

  • Parquetフォーマット概観 - 発明のための再発明

    Parquetは便利なファイル形式で、列志向のフォーマットとしてはデファクトの1つと言っても過言ではないでしょう。 ですが、jsonやcsvとは違い、ファイルを見ただけでどんな構造かわかるものではありません。 この記事は、Parquetの具体的な構造について記述します。 はじめに この投稿は、Parquetの構造について、バイナリを見ながら確認するものです。 ただし、Parquetの大枠に注目した投稿なので、delta encodingやrun-lengthなど、個別の圧縮方法については取り扱いません。 ※ Parquetの作成には https://github.com/parquet-go/parquet-go を使用していますが、goの知識は必要ありません tldr Parquetは以下の構造を持っています。 ファイルはRowGroupとメタデータに分かれている RowGroupの中に

    Parquetフォーマット概観 - 発明のための再発明
    dann
    dann 2024/09/23
  • Apache Impalaパフォーマンスチューニング #dbts2018

    2. 2 © Cloudera, Inc. All rights reserved. 嶋内 翔 (しまうち しょう) テクニカルエバンジェリスト 兼シニアセールスエンジニア お客様にとって最適なデータ分析基盤の提案をする仕事をして います 主な担当業種: 金融業界 主な専門分野: 分析データベース 略歴 2006年、NEC入社。OSS推進センターでOSSの基盤についての 基礎を学ぶ。 2011年、Cloudera入社。サポートエンジニアとして、日のお 客様の技術問い合わせに回答していく傍ら、Hadoopの啓蒙活 動に務める。 2015年から現職。 自己紹介 3. 3 © Cloudera, Inc. All rights reserved. Clouderaは 現在は不可能なことも、データの力によって 近い将来可能になると信じています Apache Hadoopの 信頼できるリーダー企業

    Apache Impalaパフォーマンスチューニング #dbts2018
  • Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較

    著者/Author: Zbigniew Branowski (Cern) 原文/Original:http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。 このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。 トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー

    Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
    dann
    dann 2018/09/25
  • 1