HHRのブックマーク / 2021年2月25日 - はてなブックマーク

HHR id:HHR

2021年2月25日のブックマーク (4件)

Python: PySpark でサードパーティ製のライブラリを使って分散処理する - CUBE SUGAR CONTAINER
今回は PySpark でサードパーティ製のライブラリを使って分散処理をする方法について。サンプルとして、次のような状況を試した。 Apache Spark + Hadoop YARN で構築した分散処理用のクラスタを用いるサードパーティ製のライブラリとして scikit-learn を想定する scikit-learn の学習済みモデルを、あらかじめローカルで用意しておく Iris データセットと学習済みモデルを使った推論を PySpark で分散処理する使った環境は次の通り。 $ cat /etc/redhat-release CentOS Linux release 7.6.1810 (Core) $ uname -r 3.10.0-957.21.3.el7.x86_64 $ python3 -V Python 3.6.8 $ pyspark --version Welcome
HHR 2021/02/25
conda仮想環境をsparkで使う。executorで任意の関数呼び出しが参考になる。モデル作成は済ませており推論をsparkで分散処理する例あり。モデルはbroadcastでばら撒く。パーティション単位で処理するときはmapPartitions()

spark
リンク
Apache Sparkの概要 - Qiita
はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで発表されたAzure Synapse Analyticsは従来のAzure SQL Data Warehouseに、Sparkエンジンを搭載してオンデマンドクエリ機能を提供するとの事。さらには、Azure Data Factory内にMapping Data
HHR 2021/02/25
大作。図の引用が多くて見やすい。用語集としても使えそう。

spark
リンク
PySparkで任意のライブラリを気軽に入れたい - iMind Developers Blog
HHR 2021/02/25
conda仮想環境をsparkで使う。clouderaブログに載る程度にはデファクトなやり方。現状ならconda-packでarchive作成の方が良い。deploy-modeがclientとclusterで設定が変わると有るがv2.4.5ではspark.pyspark.pythonだけでイケた

spark
リンク
Sparkの内部処理を理解する - Qiita
この記事はOpt Techno logies Advent Calendar 2017の17日目です。概要 11日の記事（Spark on EMRの基礎をおさらいする）にてSpark on EMRの構成はおさらいしましたが、トラブルシュートするためにはSparkの内部処理についても理解しておく必要がある、ということでまとめます。また本記事は上記記事を読んでいる方向けの内容となります。（本記事は社内勉強会にて話した内容に修正を加えたものになります。） Sparkの処理の内部構造概要 Sparkはコードでそれと意識していなくても分散処理が出来るのが強みですが、内部的には割とややこしいことをしています。具体的には、「どのロジック・オブジェクトがどこで実行されているか。またそのデータはどこから渡ってきているか」です。 RDD Sparkでは扱うデータをRDDと呼ばれるコレクションのような入れ物
HHR 2021/02/25
Driverはcluster-modeの場合はApplicationMasterになる。client-modeの場合はローカルになり、ApplicationMasterはコンテナ要求などのみを担うっぽい。Executor=yarnコンテナ

spark
リンク
- 2021年3月8日
- 2021年2月25日
- 2021年2月15日