はじめに HiveはHDFS上のデータをSQLで操作できるHadoopのエコシステムです。Facebook社により開発され、現在はApacheのトッププロジェクトの一つです。 Hiveがリリースされてから7年ほど時間が経ちました。 その間に他のビッグデータ用のSQLエンジンがいくつか登場しました。 これらのSQLエンジンの多くは、Hiveが苦手としていた低レイテンシなクエリの実行に応えることにフォーカスしています。 従来HiveのバックエンドはMapReduceで動いており、クエリを実行すると完了するまで数分から数十分、数時間の時間がかかりました。そのためアナリストの解析用途で利用するのは難しく、主にデイリーやアワリーの集計などのバッチ処理として利用されてきました。 しかしながら、現在もHiveの開発・改善は非常に活発に行われています。特にここ1〜2年の間にHortonworks社を中心と
Apache Spark on Kubernetes入門(Open Source Conference 2021 Online Hiroshima 発表資料)
File Format Benchmarks - Avro, JSON, ORC, & Parquet The document evaluates the performance of various file formats for Hadoop, including Avro, JSON, ORC, and Parquet, using real datasets to ascertain strengths and weaknesses. It provides benchmark analyses on data size, read performance, and compression effectiveness, concluding that JSON is less efficient for processing, while ORC and Parquet are
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く