エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
SparkでJOINするときの注意点 - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
SparkでJOINするときの注意点 - Qiita
動機 SPARKのワーカーノードを多数建ててJOINするとき、一部のノードだけ忙しくて他のノードが使われて... 動機 SPARKのワーカーノードを多数建ててJOINするとき、一部のノードだけ忙しくて他のノードが使われてなかったり、速度が出ないときがある。JOINが原因であることが時々ある。 参考文献 High Performance Spark p.75 に詳しく書いてある このスライドもいい。 https://www.slideshare.net/databricks/optimizing-apache-spark-sql-joins 例 次の例を考えてみる tableA.createOrReplaceTmpView("tableA") tableB.createOrReplaceTmpView("tableB") joinedtable = spark.sql(""" SELECT a.*, b.* FROM tableA as a JOIN tableB as b ON a.key = b.k