[B! pyspark] jiroron666のブックマーク

jiroron666 id:jiroron666

pysparkに関するjiroron666のブックマーク (2)

Spark SQLサンプルアプリの実行 - Qiita
Spark SQLではDataFrameと呼ばれる抽象的なデータ構造（RDBのテーブルのように行と名前とデータ型が付与された列の概念を持つデータ構造）を用いる。DataFrameはRDD、HIVEテーブル、他のデータソース（ファイルなど）から生成できる。 -DataFrameによる操作 -テーブル形式のデータセットに対してクエリを発行 http://spark.apache.org/docs/latest/sql-programming-guide.html https://spark.apache.org/docs/1.5.2/api/python/pyspark.sql.html SparkSQLサンプルアプリの実行 Spark入門の６章に記載されているプログラムをScalaではなくPython3を使って書き直す。 csv形式のデザートメニュー（メニューID、メニューの名前、値段、カロ
jiroron666 2018/02/04
pyspark
リンク
【pyspark】sparkでクラスタ組んでjupyterでデータ分析がしたい【jupyter】【docker】 - Qiita
はじめに研究でデータサイエンスやってるけど、研究室にデータ分析基盤的なのがない。計算用のサーバーがいくつかあるからクラスタ組んで分散処理してみたいと思い、sparkをいじってみる。 pythonをいつも使っているからsparkのAPIをpythonで動かせるpysparkに挑戦。体系的にまとまってる記事がないからいくつかに分けて書いてみる。あと、物理マシンでクラスタ組む点もかなり試行錯誤したから書き残しておきたい。ゴールとりあえず、分散処理をさせることを目的とする。 1. pysparkを動かす 2. クラスタを組む 3. standaloneモードで分散処理をする 4. jupyter notebookでpysparkするゴール① pysparkを動かすまず、一番重要なpysparkを動かせるようにする。これは色々記事があるから楽勝。環境今後、分散環境にしたときma
jiroron666 2018/01/31
Python

Spark

pyspark
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx