タグ

関連タグで絞り込む (0)

  • 関連タグはありません

タグの絞り込みを解除

PySparkに関するatm_09_tdのブックマーク (1)

  • PySpark の DataFrame を SparkSQL で操作する - CUBE SUGAR CONTAINER

    Apache Spark には SQL の実行エンジンが組み込まれていて、そのインターフェースは SparkSQL と呼ばれている。 この機能を使うと Spark で主に扱われるデータ構造の DataFrame オブジェクトを SQL で操作できる。 今回は PySpark から DataFrame を SparkSQL で操作する方法について書いてみる。 使った環境は次の通り。 Spark は YARN の上で動作するように環境構築してある。 ただし、今回扱う範囲であれば別にスタンドアロンな環境でも動くはず。 $ cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) $ uname -r 3.10.0-693.17.1.el7.x86_64 $ hadoop version Hadoop 2.8.3 Subversion

    PySpark の DataFrame を SparkSQL で操作する - CUBE SUGAR CONTAINER
  • 1