タグ

hadoopとApache Drillに関するyassan0627のブックマーク (3)

  • Hive , Presto , Drill のプッシュダウンの考察 - 沼津暮らし

    最近は大きなデータを扱うクエリエンジンがたくさん増えてきました。 一昔前はデータをフルスキャンして処理するパターンが多かったのですが、やはりこの方法では処理コストが大きくなるのが課題となりました。 そこでデータの読み込みでの処理コストを削減するために最近ではデータベースのように必要なカラムだけを読み込んだり、不要な行・ページをスキップするプッシュダウンの機能を持ったビッグデータ向けのクエリエンジンが増えてきました。 今日は Hive , Presto , Drill のプッシュダウンについて見ていきたいと思います。 プッシュダウンの種類 テキストや行でデータを変換しているフォーマットの場合にはすべてのフィールドを全て読み込むことになります。 ORCやParquetなどのカラムナーフォーマットの場合には列毎にデータを保持しているため、特定のカラムや列での統計情報(MaxやMin)などを持って

    Hive , Presto , Drill のプッシュダウンの考察 - 沼津暮らし
    yassan0627
    yassan0627 2018/12/18
    HDFSから要らない行や列を取り出すpushdownの話
  • FPGAによる大規模データ処理の高速化

    ビヨンド の社内勉強会で発表した「AlmaLinux と Rocky Linux の誕生経緯&比較」のスライドです。 ーーー ● AlmaLinuxとRocky Linuxの誕生経緯&比較 https://beyondjapan.com/blog/2022/08/almalinux%ef%bc%86rockylinux/ ーーー ビヨンドの業務で触れることのある「AlmaLinux」「Rocky Linux」について、誕生の発端である CentOS の説明と、CentOS 後継問題を絡めつつ、スライドを作成しました。 *** ■ 株式会社ビヨンド ・コーポレートサイト:https://beyondjapan.com​​​ ・採用サイト:https://recruit.beyondjapan.com ・Youtube(びよまるチャンネル):https://www.youtube.com/@

    FPGAによる大規模データ処理の高速化
  • CSV ファイルを Parquet ファイルに変換してクエリを高速化 - nagix

    この記事は Apache Drill Advent Calendar 2015 の8日目の記事です。 Apache Drill では Apache Parquet という大規模データの分析に適したデータフォーマットを利用することができます。Row-oriented フォーマットにカテゴリ分けされる CSV、TSV といったテキストファイルや伝統的なリレーショナルデータベースのテーブルでは、データは行方向に沿って格納されますが、Column-oriented フォーマットにカテゴリ分けされる Parquet、ORC といった形式のデータは列方向に沿って格納されます。 データ分析用途には Column-oriented フォーマットが向いているとよく言われますが、データ分析では特定の列の値を集計したり、特定の列の条件を元にフィルタリングやジョインが行われることが多いため、列方向にデータが連続し

    CSV ファイルを Parquet ファイルに変換してクエリを高速化 - nagix
  • 1