2019年3月19日、Data Engineering Meetupが主催するイベント「Data Engineering Meetup #1」が開催されました。データの収集や管理、処理、可視化など、データエンジニアリングに関する技術の情報を共有する本イベント。データエンジニアリングの最前線で活躍するエンジニアたちが集い、自身の知見を共有します。プレゼンテーション「Deep Dive into Spark SQL with Advanced Performance Tuning」に登壇したのは、Databricks Inc.の上新卓也氏。講演資料はこちら Spark SQLの仕組みとパフォーマンスチューニング上新卓也氏:それでは発表を始めます。『Deep Dive into Spark SQL with Advanced Performance Tuning』ということで、Spark SQL
Physical/Logical plan って何? Apache Spark ではデータを分散処理するために Spark SQL を実行することができます。 Spark SQL では SQL のクエリと DataFrame/Dataset API を使って任意の処理を記述できます。 この SQL のクエリや DataFrame/Dataset は、Spark の内部では Catalyst Optimizer というフレームワークによって次のように処理されます。 1. Logical Plan を解析 (参照を解決): Parsed Logical Plan -> Analyzed Logical Plan 2. Logical Plan を最適化: Analyzed Logical Plan -> Optimized Logical Plan 3. Physical Plan を生成:
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く