[B! hadoop][Apache Drill] yassan0627のブックマーク

yassan0627 id:yassan0627

hadoopとApache Drillに関するyassan0627のブックマーク (3)

Hive , Presto , Drill のプッシュダウンの考察 - 沼津暮らし
最近は大きなデータを扱うクエリエンジンがたくさん増えてきました。一昔前はデータをフルスキャンして処理するパターンが多かったのですが、やはりこの方法では処理コストが大きくなるのが課題となりました。そこでデータの読み込みでの処理コストを削減するために最近ではデータベースのように必要なカラムだけを読み込んだり、不要な行・ページをスキップするプッシュダウンの機能を持ったビッグデータ向けのクエリエンジンが増えてきました。今日は Hive , Presto , Drill のプッシュダウンについて見ていきたいと思います。プッシュダウンの種類テキストや行でデータを変換しているフォーマットの場合にはすべてのフィールドを全て読み込むことになります。 ORCやParquetなどのカラムナーフォーマットの場合には列毎にデータを保持しているため、特定のカラムや列での統計情報（MaxやMin）などを持って
yassan0627 2018/12/18
HDFSから要らない行や列を取り出すpushdownの話

hadoop

Hive

presto

Apache Drill
リンク
FPGAによる大規模データ処理の高速化
ビヨンドの社内勉強会で発表した「AlmaLinux と Rocky Linux の誕生経緯＆比較」のスライドです。ーーー ● AlmaLinuxとRocky Linuxの誕生経緯＆比較 https://beyondjapan.com/blog/2022/08/almalinux%ef%bc%86rockylinux/ ーーービヨンドの業務で触れることのある「AlmaLinux」「Rocky Linux」について、誕生の発端である CentOS の説明と、CentOS 後継問題を絡めつつ、本スライドを作成しました。＊＊＊ ■ 株式会社ビヨンド・コーポレートサイト：https://beyondjapan.com ・採用サイト：https://recruit.beyondjapan.com ・Youtube（びよまるチャンネル）：https://www.youtube.com/@
yassan0627 2018/02/24
データ

hadoop

FPGA

Apache Drill
リンク
CSV ファイルを Parquet ファイルに変換してクエリを高速化 - nagix
この記事は Apache Drill Advent Calendar 2015 の8日目の記事です。 Apache Drill では Apache Parquet という大規模データの分析に適したデータフォーマットを利用することができます。Row-oriented フォーマットにカテゴリ分けされる CSV、TSV といったテキストファイルや伝統的なリレーショナルデータベースのテーブルでは、データは行方向に沿って格納されますが、Column-oriented フォーマットにカテゴリ分けされる Parquet、ORC といった形式のデータは列方向に沿って格納されます。データ分析用途には Column-oriented フォーマットが向いているとよく言われますが、データ分析では特定の列の値を集計したり、特定の列の条件を元にフィルタリングやジョインが行われることが多いため、列方向にデータが連続し
yassan0627 2017/06/16
CSV

Apache Drill

hadoop
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx