タグ

2021年2月25日のブックマーク (4件)

  • Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER

    今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。 サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いる サードパーティ製のライブラリとして scikit-learn を想定する scikit-learn の学習済みモデルを、あらかじめローカルで用意しておく Iris データセットと学習済みモデルを使った推論を PySpark で分散処理する 使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core) $ uname -r 3.10.0-957.21.3.el7.x86_64 $ python3 -V Python 3.6.8 $ pyspark --version Welcome

    Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER
    HHR
    HHR 2021/02/25
    conda仮想環境をsparkで使う。executorで任意の関数呼び出しが参考になる。モデル作成は済ませており推論をsparkで分散処理する例あり。モデルはbroadcastでばら撒く。パーティション単位で処理するときはmapPartitions()
  • Apache Sparkの概要 - Qiita

    はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで発表されたAzure Synapse Analyticsは従来のAzure SQL Data Warehouseに、Sparkエンジンを搭載してオンデマンドクエリ機能を提供するとの事。さらには、Azure Data Factory内にMapping Data

    Apache Sparkの概要 - Qiita
    HHR
    HHR 2021/02/25
    大作。図の引用が多くて見やすい。用語集としても使えそう。
  • PySparkで任意のライブラリを気軽に入れたい - iMind Developers Blog

    HHR
    HHR 2021/02/25
    conda仮想環境をsparkで使う。clouderaブログに載る程度にはデファクトなやり方。現状ならconda-packでarchive作成の方が良い。deploy-modeがclientとclusterで設定が変わると有るがv2.4.5ではspark.pyspark.pythonだけでイケた
  • Sparkの内部処理を理解する - Qiita

    この記事はOpt Technologies Advent Calendar 2017の17日目です。 概要 11日の記事(Spark on EMRの基礎をおさらいする)にてSpark on EMRの構成はおさらいしましたが、トラブルシュートするためにはSparkの内部処理についても理解しておく必要がある、ということでまとめます。また記事は上記記事を読んでいる方向けの内容となります。 (記事は社内勉強会にて話した内容に修正を加えたものになります。) Sparkの処理の内部構造 概要 Sparkはコードでそれと意識していなくても分散処理が出来るのが強みですが、内部的には割とややこしいことをしています。具体的には、「どのロジック・オブジェクトがどこで実行されているか。またそのデータはどこから渡ってきているか」です。 RDD Sparkでは扱うデータをRDDと呼ばれるコレクションのような入れ物

    Sparkの内部処理を理解する - Qiita
    HHR
    HHR 2021/02/25
    Driverはcluster-modeの場合はApplicationMasterになる。client-modeの場合はローカルになり、ApplicationMasterはコンテナ要求などのみを担うっぽい。Executor=yarnコンテナ