[B! bigdata][performance] sh19910711のブックマーク

sh19910711 id:sh19910711

bigdataとperformanceに関するsh19910711のブックマーク (15)

Composite Aggregationとは？Elasticsearchで大規模データを効率的に集計する方法
Composite Aggregationとは？Elasticsearchで大規模データを効率的に集計する方法最近、大規模なデータを効率的に処理する必要性がますます高まっていると感じませんか？特にElasticsearchを利用している方なら、複雑なクエリや大量のデータを扱うことが日常茶飯事でしょう。しかし、そんな中でデータをどのように効率的に集計し、分析結果を迅速に得るかという課題に直面している方も多いのではないでしょうか。例えば、商品の売上データを月別や地域別に詳細に集計したい場合、単純なアグリゲーションではデータ量が多すぎて処理が追いつかないことがあります。これでは、ビジネスの重要な意思決定をタイムリーに行うのが難しくなります。では、どうすれば大量のデータを効果的に集計し、スムーズに分析結果を得られるのでしょうか？その答えの一つが「Composite Aggregation」で
sh19910711 2025/07/08
2024 / "Elasticsearchにおける多バケットアグリゲーションの一種 / 複数のフィールドを組み合わせてバケットを作成 + 大規模なデータセットをページネーションを用いて効率的に集計"

*data

search

bigdata

performance
リンク
Hive on TezのEXPLAINを読み解く | DevelopersIO
こんにちは、小澤です。 RDBではおなじみのEXPLAIN、実行計画を確認しクエリを最適化したり、インデックスの貼り方を考えたりするのによく使われるかと思います。このEXPLAINですが、Hiveでも利用可能です。 HiveのEXPLAINはMapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊でこれらの知識も必要になります。実行エンジンによって表示され方が異なるため、今回はHive on Tezに限定してこのEXPLAINの見方を解説していきます。今回利用するクエリ今回は、TPC-DSというOLAPなどの分析系クエリのベンチマークで利用されるデータを利用して見ていきたいと思います。 TPC-DSの詳細については解説しませんので、気になる方は公式の情報をご確認ください。 TPC-DS HiveでTPC-DSを利用できる環境を整えるために、以下のスクリプトを
sh19910711 2024/05/26
"HiveのEXPLAIN: MapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊 / ジョブを実行すると、TezのWebUIからビジュアライズされたものが確認できますが、実行計画のこの部分から同じものを作成することも可能" 2017

*data

bigdata

performance
リンク
小さなファイルが大きな問題を引き起こす
原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 本稿は2019/5/9に公開されたブログ記事の翻訳です。「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム（HDFS）は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo
sh19910711 2024/05/22
"スモール・ファイル: NameNodeのメモリ使用率とRPC呼び出しの効率が悪くなり、スキャンのスループットが低下 / Spark: 各パーティションは、デフォルトで1つのHDFSブロック / できる限りHDFSブロックサイズの倍数に近づける" 2019

*data

bigdata

performance
リンク
Sparkで少サイズ大量データの課題にどう立ち向かう？｜Puuuii | 伝える技術と心理学で戦うデータエンジニア
日々ビッグデータと格闘しておられる私たちデータエンジニアにはなじみ深いSparkのの話です。小サイズ&大量ファイルのデータを扱うことがなぜ苦手なのか、どう対処すればよいかを見てみましょう。なぜ小サイズ&大量ファイルが苦手？Sparkは細切れのデータを扱うのがメモリ効率やパフォーマンスの面で苦手です。具体的なサイズをいうと数KB～数MBだと悪影響が出てきますね。なぜ細切れのファイルを扱いのが苦手なのかというと、ファイルを開いて・読んで・閉じる必要があるためです。極端な話、ファイルがひとつだけであれば一度だけの開け閉めと読み取りでいいですから。またタスクを平行で走らせるときのオーバーヘッドもファイル数に応じて大きくなっていきます。さらにSparkのメモリ管理は大規模で連続したメモリ領域に特化していて、細切れのファイルだとメモリが枯渇してしまうんですよね。どう対処する？第一に細切
sh19910711 2024/04/28
"ファイル: 開いて・読んで・閉じる必要がある + オーバーヘッドもファイル数に応じて大きくなっていきます / 細切れになってしまったファイルは`hdfs dfs -getmerge`などを用いてより大きいファイルに融合するとよい"

*data

bigdata

--

performance
リンク
AWS Glue での Spark のパフォーマンス (実行時間) を改善したい - クラウドエンジニアのノート
はじめに準備データ計測関数 CSV vs Parquet Parquet 参考読み取り速度比較データ作成読み取り読み取って Filter 処理した際の速度比較データサイズ比較 csv gzip はどれくらい？まとめ Glue DynamicFrame vs Spark DataFrame データ読み取り速度比較まとめパーティション数の違いによる速度比較準備シャッフルが発生しない処理シャッフルが発生する処理まとめ Spark Join BroadCast Join まとめキャッシュを使うキャッシュありなし比較遅延評価？まとめはじめに最近 O'Reilly のLearning Spark 2nd Edition を読み始めました。 https://learning.oreilly.com/library/view/learning-spark-2nd/
sh19910711 2024/04/25
"データ全体の読み取り速度は csv も parquet も変わらない / Filter 等を実行する場合 (Predicate Pushdown を使う場合) Parquet の方が読み取り早い / cache() や persist() は action ではなく transformation なので遅延評価" 2023

*infra

*data

aws

bigdata

performance
リンク
DatabricksSQL パフォーマンス・チューニング Tips - Qiita
はじめにこの記事はこれまで実案件において実施したDatabricksSQLパフォーマンスチューニングの作業内容をベースに、実行クエリのボトルネック特定からパフォーマンス改善の手法について共通すると思われるTipsをベストプラクティスとしてまとめたものです。 DatabricksSQLの操作経験がある方を対象に記載しておりますため、DatabrickSQLの機能説明や用語解説及び設定コマンドの詳細等は割愛しておりますが、今回初めてDatabricksSQLをご検討される方でも理解いただけるよう、該当するDatabricksドキュメントリンクも併せて記載しておりますので適宜ご参照ください。 ※ドキュメントへのリンクはAzure Databricksのリンクを使用していますがAWS/CGP上のDatabricksでも同様の機能を提供しています。 DatabricksSQLとは Databric
sh19910711 2024/04/12
"spark.sql.join.preferSortMergeJoin: データ量が大きい場合などでは常にソートマージプランが選択されやすい / spark.sql.shuffle.partitions: 値をautoに設定すると、自動最適化シャッフルが有効 + Sparkタスクが細分化される"

*data

bigdata

*infra

performance
リンク
SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する - sambaiz-net
SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する Spark の Web UI は Job や Executor をモニタリングするためのツール。 aws-glue-samplesから maven:3.6-amazoncorretto-8 ベースでSparkを動かすDockerfileを持ってきて、 History Serverを起動する。Glue で出力された EventLog のパスと認証情報を渡している。 $ git clone https://github.com/aws-samples/aws-glue-samples.git $ cd aws-glue-samples/utilities/Spark_UI/glue-3_0/ $ docker build -t glue/sparkui:latest . $ docke
sh19910711 2022/12/30
2021 / "WholeStageCodeGenは高速化のため処理ごとではなくStage単位でCode Generationする処理。ただ生成されるコードが大きいとJVMがJITコンパイルしなくなるのでかえって遅くなることもあるそうだ"

*data

bigdata

performance
リンク
Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog
HDFS の Datanode の Flame Graph sun.nio.ch.FileChannelImpl:::transferTo から sendfile システムコールが呼ばれている。一番左のスタックをドリルダウンしたもの。 Presto Server の Flame Graph 一番左のスタックをドリルダウンしたもの、com.facebook.presto.parquet.reader.BinaryColumnReader:::readValue で Columnar Read していると思われる。確認ポイント Presto で Parquet にクエリする際、参照するカラムのデータのみ読む。環境リリースラベル: emr-5.28.0 Hadoop ディストリビューション: Amazon 2.8.5 Hive 2.3.6, Pig 0.17.0, Hue 4.4.0,
sh19910711 2022/07/29
2019 / "各種パッケージ: yum -y install htop sysstat dstat iotop ltrace strace perf blktrace gnuplot / perf-map-agent + FlameGraph + sysdig + bcc + eBPF ツール / HADOOP_OPTS=-XX:+PreserveFramePointer"

*data

bigdata

performance
リンク
Parquetはカラムナなのか？
The document appears to be a presentation on Amazon EMR and related AWS services. It discusses using EMR for big data and analytics workloads, how to set up EMR clusters on AWS, encryption options for data at rest and in transit, and integration of EMR with other AWS services like S3 and Spark. The presentation contains many bullet points and diagrams but provides little surrounding context or nar
sh19910711 2020/12/19
*data

bigdata

performance
リンク
Improving Spark SQL Performance_
今こそ変化対応力を向上させるとき〜ログラスが FAST に挑戦する理由〜 / Why Loglass is Talking on the Challenge of Agile Framework FAST
sh19910711 2020/03/20
*data

bigdata

performance
リンク
Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1 | ログミーBusiness
2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Spark SQLの仕組みとパフォーマンスチューニング上新卓也氏：それでは発表を始めます。『Deep Dive into Spark SQL with Advanced Performance Tuning』ということで、Spark SQL
sh19910711 2019/07/08
*data

bigdata

performance
リンク
Sparkのチューニングに関するメモ - Qiita
Sparkを使った際にチューニングで考慮した点のメモです。前提となる環境 Spark1.4 元データはJSON データ形式と圧縮コーデックデータをParquet形式で扱う元となるデータはJSON形式ですが、Parquetの方が効率的に扱えるためJSONをParquetに変換します。必要なデータだけをParquetに保存する DataFrame#select()で必要なカラムだけを選択し、計算に不要なデータを取り除きます。 Parquetの圧縮形式にはsnappyを使用するデフォルトではParquetの圧縮形式はgzip形式ですが、snappyを選択することで高速な圧縮・伸長が行えます。 (追記：2.0ではsnappyがデフォルトになっています) コード例 sqlContext.setConf("spark.sql.parquet.compression.codec", "snap
sh19910711 2019/07/07
"複数回使うRDDやDataFrameはcache()メソッドを使って計算結果をキャッシュ"

*data

bigdata

*infra

performance
リンク
LINEの内製データ分析基盤「OASIS」におけるSpark SQLのパフォーマンス改善
2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Improving Spark SQL Performance」に登壇したのは、LINE株式会社Data Platform室の吉田啓二氏。講演資料はこちら Improving Spark SQL Performance 吉田啓二氏：LINEの吉田と申します。よろしくお願いします。 LINEでは「OASIS」という内製のBIダッシュボードツールを独自で開発して運用しています。LINEの各社員は、こちらのツール上でSpark SQLの
sh19910711 2019/06/22
*infra

*data

bigdata

performance
リンク
An Insider’s Guide to Maximizing Spark SQL Performance
This document provides an overview of optimizing Spark SQL performance. It begins with introducing the speaker and their background with Spark. It then discusses reading query plans, interpreting them to understand optimizations, and tuning plans by pushing down filters, avoiding implicit casts, and other techniques. It em phasizes tracking query execution through the Spark UI to analyze jobs, stag
sh19910711 2019/03/19
*data

bigdata

*infra

performance
リンク
Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
著者/Author: Zbigniew Branowski (Cern) 原文/Original：http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー
sh19910711 2017/11/14
*data

performance

bigdata

datalake
リンク
1