タグ

bigdataとperformanceに関するsh19910711のブックマーク (15)

  • Composite Aggregationとは?Elasticsearchで大規模データを効率的に集計する方法

    Composite Aggregationとは?Elasticsearchで大規模データを効率的に集計する方法 最近、大規模なデータを効率的に処理する必要性がますます高まっていると感じませんか?特にElasticsearchを利用している方なら、複雑なクエリや大量のデータを扱うことが日常茶飯事でしょう。しかし、そんな中でデータをどのように効率的に集計し、分析結果を迅速に得るかという課題に直面している方も多いのではないでしょうか。 例えば、商品の売上データを月別や地域別に詳細に集計したい場合、単純なアグリゲーションではデータ量が多すぎて処理が追いつかないことがあります。これでは、ビジネスの重要な意思決定をタイムリーに行うのが難しくなります。 では、どうすれば大量のデータを効果的に集計し、スムーズに分析結果を得られるのでしょうか?その答えの一つが「Composite Aggregation」で

    Composite Aggregationとは?Elasticsearchで大規模データを効率的に集計する方法
    sh19910711
    sh19910711 2025/07/08
    2024 / "Elasticsearchにおける多バケットアグリゲーションの一種 / 複数のフィールドを組み合わせてバケットを作成 + 大規模なデータセットをページネーションを用いて効率的に集計"
  • Hive on TezのEXPLAINを読み解く | DevelopersIO

    こんにちは、小澤です。 RDBではおなじみのEXPLAIN、実行計画を確認しクエリを最適化したり、インデックスの貼り方を考えたりするのによく使われるかと思います。 このEXPLAINですが、Hiveでも利用可能です。 HiveのEXPLAINはMapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊でこれらの知識も必要になります。 実行エンジンによって表示され方が異なるため、今回はHive on Tezに限定してこのEXPLAINの見方を解説していきます。 今回利用するクエリ 今回は、TPC-DSというOLAPなどの分析系クエリのベンチマークで利用されるデータを利用して見ていきたいと思います。 TPC-DSの詳細については解説しませんので、気になる方は公式の情報をご確認ください。 TPC-DS HiveでTPC-DSを利用できる環境を整えるために、以下のスクリプトを

    Hive on TezのEXPLAINを読み解く | DevelopersIO
    sh19910711
    sh19910711 2024/05/26
    "HiveのEXPLAIN: MapReduceやTez, Sparkのジョブに変換されるため、少々見方が特殊 / ジョブを実行すると、TezのWebUIからビジュアライズされたものが確認できますが、実行計画のこの部分から同じものを作成することも可能" 2017
  • 小さなファイルが大きな問題を引き起こす

    原文: https://blog.cloudera.com/blog/2019/05/small-files-big-foils-addressing-the-associated-metadata-and-application-challenges/ 著者: Shashank Naik, Bhagya Gummalla 訳注: 稿は2019/5/9に公開されたブログ記事の翻訳です。 「スモール・ファイル」はApache Hadoopの世界では一般的な課題であり、注意して扱わないと、いくつかの複雑な問題を引き起こす可能性があります。Apache Hadoop分散ファイルシステム(HDFS)は、テラバイトからペタバイトの範囲にわたる、大きなデータセットを格納して処理するために開発されました。しかしHDFSはスモール・ファイルを効率的に格納しないため、スモール・ファイルによってNameNo

    小さなファイルが大きな問題を引き起こす
    sh19910711
    sh19910711 2024/05/22
    "スモール・ファイル: NameNodeのメモリ使用率とRPC呼び出しの効率が悪くなり、スキャンのスループットが低下 / Spark: 各パーティションは、デフォルトで1つのHDFSブロック / できる限りHDFSブロックサイズの倍数に近づける" 2019
  • Sparkで少サイズ大量データの課題にどう立ち向かう?|Puuuii | 伝える技術と心理学で戦うデータエンジニア

    日々ビッグデータと格闘しておられる私たちデータエンジニアにはなじみ深いSparkのの話です。 小サイズ&大量ファイルのデータを扱うことがなぜ苦手なのか、どう対処すればよいかを見てみましょう。 なぜ小サイズ&大量ファイルが苦手?Sparkは細切れのデータを扱うのがメモリ効率やパフォーマンスの面で苦手です。 具体的なサイズをいうと数KB~数MBだと悪影響が出てきますね。 なぜ細切れのファイルを扱いのが苦手なのかというと、ファイルを開いて・読んで・閉じる必要があるためです。 極端な話、ファイルがひとつだけであれば一度だけの開け閉めと読み取りでいいですから。 またタスクを平行で走らせるときのオーバーヘッドもファイル数に応じて大きくなっていきます。 さらにSparkのメモリ管理は大規模で連続したメモリ領域に特化していて、細切れのファイルだとメモリが枯渇してしまうんですよね。 どう対処する?第一に細切

    Sparkで少サイズ大量データの課題にどう立ち向かう?|Puuuii | 伝える技術と心理学で戦うデータエンジニア
    sh19910711
    sh19910711 2024/04/28
    "ファイル: 開いて・読んで・閉じる必要がある + オーバーヘッドもファイル数に応じて大きくなっていきます / 細切れになってしまったファイルは`hdfs dfs -getmerge`などを用いてより大きいファイルに融合するとよい"
  • AWS Glue での Spark のパフォーマンス (実行時間) を改善したい - クラウドエンジニアのノート

    はじめに 準備 データ 計測関数 CSV vs Parquet Parquet 参考 読み取り速度比較 データ作成 読み取り 読み取って Filter 処理した際の速度比較 データサイズ比較 csv gzip はどれくらい? まとめ Glue DynamicFrame vs Spark DataFrame データ読み取り速度比較 まとめ パーティション数の違いによる速度比較 準備 シャッフルが発生しない処理 シャッフルが発生する処理 まとめ Spark Join BroadCast Join まとめ キャッシュを使う キャッシュありなし比較 遅延評価? まとめ はじめに 最近 O'Reilly のLearning Spark 2nd Edition を読み始めました。 https://learning.oreilly.com/library/view/learning-spark-2nd/

    AWS Glue での Spark のパフォーマンス (実行時間) を改善したい - クラウドエンジニアのノート
    sh19910711
    sh19910711 2024/04/25
    "データ全体の読み取り速度は csv も parquet も変わらない / Filter 等を実行する場合 (Predicate Pushdown を使う場合) Parquet の方が読み取り早い / cache() や persist() は action ではなく transformation なので遅延評価" 2023
  • DatabricksSQL パフォーマンス・チューニング Tips - Qiita

    はじめに この記事はこれまで実案件において実施したDatabricksSQLパフォーマンスチューニングの作業内容をベースに、実行クエリのボトルネック特定からパフォーマンス改善の手法について共通すると思われるTipsをベストプラクティスとしてまとめたものです。 DatabricksSQLの操作経験がある方を対象に記載しておりますため、DatabrickSQLの機能説明や用語解説及び設定コマンドの詳細等は割愛しておりますが、今回初めてDatabricksSQLをご検討される方でも理解いただけるよう、該当するDatabricksドキュメントリンクも併せて記載しておりますので適宜ご参照ください。 ※ドキュメントへのリンクはAzure Databricksのリンクを使用していますがAWS/CGP上のDatabricksでも同様の機能を提供しています。 DatabricksSQLとは Databric

    DatabricksSQL パフォーマンス・チューニング Tips - Qiita
    sh19910711
    sh19910711 2024/04/12
    "spark.sql.join.preferSortMergeJoin: データ量が大きい場合などでは常にソートマージプランが選択されやすい / spark.sql.shuffle.partitions: 値をautoに設定すると、自動最適化シャッフルが有効 + Sparkタスクが細分化される"
  • SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する - sambaiz-net

    SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する Spark の Web UI は Job や Executor をモニタリングするためのツール。 aws-glue-samplesから maven:3.6-amazoncorretto-8 ベースでSparkを動かすDockerfileを持ってきて、 History Serverを起動する。Glue で出力された EventLog のパスと認証情報を渡している。 $ git clone https://github.com/aws-samples/aws-glue-samples.git $ cd aws-glue-samples/utilities/Spark_UI/glue-3_0/ $ docker build -t glue/sparkui:latest . $ docke

    SparkのWeb UIでJobのStageとExecutorによるTask分散、SQLのplanを確認する - sambaiz-net
    sh19910711
    sh19910711 2022/12/30
    2021 / "WholeStageCodeGenは高速化のため処理ごとではなくStage単位でCode Generationする処理。 ただ生成されるコードが大きいとJVMがJITコンパイルしなくなるのでかえって遅くなることもあるそうだ"
  • Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog

    HDFS の Datanode の Flame Graph sun.nio.ch.FileChannelImpl:::transferTo から sendfile システムコールが呼ばれている。 一番左のスタックをドリルダウンしたもの。 Presto Server の Flame Graph 一番左のスタックをドリルダウンしたもの、com.facebook.presto.parquet.reader.BinaryColumnReader:::readValue で Columnar Read していると思われる。 確認ポイント Presto で Parquet にクエリする際、参照するカラムのデータのみ読む。 環境 リリースラベル: emr-5.28.0 Hadoop ディストリビューション: Amazon 2.8.5 Hive 2.3.6, Pig 0.17.0, Hue 4.4.0,

    Presto で Parquet にクエリすると、参照するカラムのみ読んでいることを確認した - ablog
    sh19910711
    sh19910711 2022/07/29
    2019 / "各種パッケージ: yum -y install htop sysstat dstat iotop ltrace strace perf blktrace gnuplot / perf-map-agent + FlameGraph + sysdig + bcc + eBPF ツール / HADOOP_OPTS=-XX:+PreserveFramePointer"
  • Parquetはカラムナなのか?

    The document appears to be a presentation on Amazon EMR and related AWS services. It discusses using EMR for big data and analytics workloads, how to set up EMR clusters on AWS, encryption options for data at rest and in transit, and integration of EMR with other AWS services like S3 and Spark. The presentation contains many bullet points and diagrams but provides little surrounding context or nar

    Parquetはカラムナなのか?
  • Improving Spark SQL Performance_

    今こそ変化対応力を向上させるとき 〜ログラスが FAST に挑戦する理由〜 / Why Loglass is Talking on the Challenge of Agile Framework FAST

    Improving Spark SQL Performance_
  • Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1 | ログミーBusiness

    2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有するイベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Spark SQLの仕組みとパフォーマンスチューニング上新卓也氏:それでは発表を始めます。『Deep Dive into Spark SQL with Advanced Performance Tuning』ということで、Spark SQL

    Apache Sparkコミッターが教える、Spark SQLの詳しい仕組みとパフォーマンスチューニング Part1 | ログミーBusiness
  • Sparkのチューニングに関するメモ - Qiita

    Sparkを使った際にチューニングで考慮した点のメモです。 前提となる環境 Spark1.4 元データはJSON データ形式と圧縮コーデック データをParquet形式で扱う 元となるデータはJSON形式ですが、Parquetの方が効率的に扱えるためJSONをParquetに変換します。 必要なデータだけをParquetに保存する DataFrame#select()で必要なカラムだけを選択し、計算に不要なデータを取り除きます。 Parquetの圧縮形式にはsnappyを使用する デフォルトではParquetの圧縮形式はgzip形式ですが、snappyを選択することで高速な圧縮・伸長が行えます。 (追記:2.0ではsnappyがデフォルトになっています) コード例 sqlContext.setConf("spark.sql.parquet.compression.codec", "snap

    Sparkのチューニングに関するメモ - Qiita
    sh19910711
    sh19910711 2019/07/07
    "複数回使うRDDやDataFrameはcache()メソッドを使って計算結果をキャッシュ"
  • LINEの内製データ分析基盤「OASIS」におけるSpark SQLのパフォーマンス改善

    2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有するイベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Improving Spark SQL Performance」に登壇したのは、LINE株式会社Data Platform室の吉田啓二氏。講演資料はこちら Improving Spark SQL Performance 吉田啓二氏:LINEの吉田と申します。よろしくお願いします。 LINEでは「OASIS」という内製のBIダッシュボードツールを独自で開発して運用しています。LINEの各社員は、こちらのツール上でSpark SQL

    LINEの内製データ分析基盤「OASIS」におけるSpark SQLのパフォーマンス改善
  • An Insider’s Guide to Maximizing Spark SQL Performance

    This document provides an overview of optimizing Spark SQL performance. It begins with introducing the speaker and their background with Spark. It then discusses reading query plans, interpreting them to understand optimizations, and tuning plans by pushing down filters, avoiding implicit casts, and other techniques. It emphasizes tracking query execution through the Spark UI to analyze jobs, stag

    An Insider’s Guide to Maximizing Spark SQL Performance
  • Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較

    著者/Author: Zbigniew Branowski (Cern) 原文/Original:http://blog.cloudera.com/blog/2017/02/performance-comparing-of-different-file-formats-and-storage-engines-in-hadoop-file-system/ Zbigniew Baranowskiはデータベースシステムの専門家であり、CERNでセントラルデータベースとHadoopベースのサービスを提供、サポートしているグループのメンバーです。 このブログはもともとCERNの「Databases at CERN」ブログで公開されており、CERNの許可を得てここで公開されています。 トピックこの記事では、Apache Hadoopエコシステムで利用可能ないくつかの一般的なデータフォーマットとストレー

    Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較
  • 1