[B! PySpark] atm_09_tdのブックマーク

PySparkに関するatm_09_tdのブックマーク (1)

PySpark の DataFrame を SparkSQL で操作する - CUBE SUGAR CONTAINER
Apache Spark には SQL の実行エンジンが組み込まれていて、そのインターフェースは SparkSQL と呼ばれている。この機能を使うと Spark で主に扱われるデータ構造の DataFrame オブジェクトを SQL で操作できる。今回は PySpark から DataFrame を SparkSQL で操作する方法について書いてみる。使った環境は次の通り。 Spark は YARN の上で動作するように環境構築してある。ただし、今回扱う範囲であれば別にスタンドアロンな環境でも動くはず。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.17.1.el7.x86_64 $ hadoop version Hadoop 2.8.3 Subversion
atm_09_td 2018/03/03
PySpark
リンク
1

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx