タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

pysparkに関するjiroron666のブックマーク (2)

  • Spark SQLサンプルアプリの実行 - Qiita

    Spark SQLではDataFrameと呼ばれる抽象的なデータ構造(RDBのテーブルのように行と名前とデータ型が付与された列の概念を持つデータ構造)を用いる。DataFrameはRDD、HIVEテーブル、他のデータソース(ファイルなど)から生成できる。 -DataFrameによる操作 -テーブル形式のデータセットに対してクエリを発行 http://spark.apache.org/docs/latest/sql-programming-guide.html https://spark.apache.org/docs/1.5.2/api/python/pyspark.sql.html SparkSQLサンプルアプリの実行 Spark入門の6章に記載されているプログラムをScalaではなくPython3を使って書き直す。 csv形式のデザートメニュー(メニューID、メニューの名前、値段、カロ

    Spark SQLサンプルアプリの実行 - Qiita
  • 【pyspark】sparkでクラスタ組んでjupyterでデータ分析がしたい【jupyter】【docker】 - Qiita

    はじめに 研究でデータサイエンスやってるけど、研究室にデータ分析基盤的なのがない。 計算用のサーバーがいくつかあるからクラスタ組んで分散処理してみたいと思い、sparkをいじってみる。 pythonをいつも使っているからsparkのAPIpythonで動かせるpysparkに挑戦。 体系的にまとまってる記事がないからいくつかに分けて書いてみる。 あと、物理マシンでクラスタ組む点もかなり試行錯誤したから書き残しておきたい。 ゴール とりあえず、分散処理をさせることを目的とする。 1. pysparkを動かす 2. クラスタを組む 3. standaloneモードで分散処理をする 4. jupyter notebookでpysparkする ゴール① pysparkを動かす まず、一番重要なpysparkを動かせるようにする。 これは色々記事があるから楽勝。 環境 今後、分散環境にしたときma

    【pyspark】sparkでクラスタ組んでjupyterでデータ分析がしたい【jupyter】【docker】 - Qiita
  • 1