[B! spark] Windymeltのブックマーク

Windymelt id:Windymelt

sparkに関するWindymeltのブックマーク (8)

Pandasを使うのをやめてScalaでSparkを使い始めましょう - Qiita
なぜデータサイエンティストやデータエンジニアがPandasの代替としてScalaとSparkを使うことを考えるべきなのか、どのように使い始めるのかソース: https://unsplash.com/photos/8IGKYypIZ9k PandasからScala + Sparkへの移行は思うほど大変なことではなく、結果としてお使いのコードが高速になり、おそらくより良いコードを書くことになるでしょう。データエンジニアとしての私の経験を通じて、Pandasでデータパイプラインを構築すると、増加するメモリーの使用量についていくために定期的にリソースを増強することが多くの場合必要となることを知りました。さらに、予期しないデータ型やnullによって多くの実行時エラーに遭遇しました。代わりにScalaとSparkを用いることで、ソリューションはより堅牢なものとなり、リファクタリングや拡張が容易にな
Windymelt 2023/09/20
tech-技術

spark

scala

pandas
リンク
Python Pandas vs. Scala: how to handle dataframes (part II)
Windymelt 2023/09/18
tech-技術

scala

spark

python
リンク
Introducing English as the New Programming Language for Apache Spark
Unified governance for all data, analytics and AI assets
Windymelt 2023/07/02
英語でSparkクエリできるようになるのすごすぎ

tech-技術

ai

spark
リンク
Raspberry Pi 2 2台でApache Sparkの並列分散処理を試す | MUDAなことをしよう。
2015年5月30日前回まででRaspberry Pi 2単独でのApache Sparkの動作確認は完了したので、次はいよいよ２台のRaspberry Piを使った並列分散処理を試したいと思います。引き続き、以下のページを参考にさせていただきます。 Setting up a standalone Apache Spark cluster of Raspberry Pi 2 ここでは”standalone”と言われるクラスタモードで動作確認をします。クラスタモードについては、ここに記述があります。 Cluster Mode Overview “standalone”というのクラスタマネージャの一つで、Sparkにパッケージングされている、シンプルなクラスタマネージャのようです。クラスタマネージャは、リソースの割り当てを行うもの。クラスタマネージャとしては、他に”Apache Mesos”
Windymelt 2023/06/18
おもしろ!!

tech-技術

spark

scala
リンク
Apache Sparkの概要 - Qiita
はじめに Apache Sparkはデータの高速な処理能力や、汎用性の高さから、昨今ではクラウドのPaaS型のデータ処理エンジンに搭載されるようになってきた。たとえばAzureのサービスでは従来からAzure HDInsightにPure 100% OSSのSparkが以前から搭載されている。Azure DatabricksはSparkのクラスター管理を大幅にクラウド側に寄せ、Notebookやジョブのインターフェース等を提供する形態も出てきて多くのユーザーに利用されているようである。また、2019年のMicrosoft Igniteで発表されたAzure Synapse Analyticsは従来のAzure SQL Data Warehouseに、Sparkエンジンを搭載してオンデマンドクエリ機能を提供するとの事。さらには、Azure Data Factory内にMapping Data
Windymelt 2023/06/17
tech-技術

spark

scala

スタンダード
リンク
ApacheSparkでJSONを手直ししてからパースする
概要例えば下記のようなJSONファイルを読み込み、任意のスキーマに修正した後でパースしたい。調査したところあまり情報を見かけなかったため、記事にすることにした。 import org.apache.spark.sql.Row import org.apache.spark.sql.catalyst.encoders.RowEncoder import org.apache.spark.sql.types._ import org.apache.spark.sql.functions._ import com.fasterxml.jackson.databind.ObjectMapper import com.fasterxml.jackson.module.scala.DefaultScalaModule val df = spark.read.text("改行を含まない、かつ最上位が
Windymelt 2023/01/06
tech-技術

scala

spark
リンク
ApacheSparkでzipファイルに格納されたJSONファイルを読み込む
概要提供されたデータがSparkの対応する形式であれば、特に問題なく処理可能だ。しかしzipで圧縮されていた場合はあらかじめ解凍しておくか、少し工夫する必要がある。この記事ではzipに格納されたJSONファイルをzipのまま読み込み、データフレーム化する方法を紹介する。前提条件ファイルのエンコードがUTF-8であること zipファイルに格納されたJSONファイルのスキーマが全て同一であること ※今回使用したzipファイル target ├── foo.zip │ ├── test1.json │ └── test2.json └── bar.zip ├── test1.json └── test2.json import java.io._ import java.nio._ import java.util.zip.ZipEntry import java.util.z
Windymelt 2023/01/06
tech-技術

scala

spark
リンク
How to run Logistic Regression in Scala for Dataframe
Windymelt 2023/01/04
VectorAssemblerでカラムをVectorに変換できる

tech-技術

scala

spark
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx