[B! Spark] yubessyのブックマーク

Benchmarking Apache Spark on a Single Node Machine - The Databricks Blog

Unified governance for all data, analytics and AI assets

yubessy 2018/12/21

Spark

リンク

SparkInternalsで知る、Sparkの内部構造概要（概要/Logical Plan） - Qiita

はじめにこんにちは。この記事はApache Spark Advent Calendar 2015の19日目の記事です。 Sparkを使うにあたって困る点 Sparkを使っている皆さんなら実感しつつあると思いますが、Sparkには困った点もあります。とりあえずサンプルを動かすだけ、であればそれほど苦労することは無いのですが、実際に大規模データを用いて使用し出すと、下記のような問題が頻発します。適切なチューニングが施されていないとスピードが出ない一部のコンポーネントはそもそも動かない（特にMLlib）問題が発生した時、どこで発生したかがぱっとはわかりにくいそのため、ある程度内部構造か、チューニングの勘所をおさえておかないと苦労することになります。優れてはいるんですが、その分ピーキーなフレームワーク、というのがMapReduceと比べた私の印象です。そんなわけで、Sparkの内

yubessy 2018/09/05

Spark

リンク

SparkInternalsで知る、Sparkの内部構造概要（cache and checkpoint） - Qiita

はじめにこんにちは。前回に引き続き、SparkInternalsを訳していきます。前回と同じく以後は下記の判例となります。 SparkInternals訳文コメント cache（またはpersist）はHadoop MapReduceには存在しない、Spark固有の重要な要素となる。この機能によって、SparkはDataの再利用が可能になり、インタラクティブな機械学習アルゴリズム、インタラクティブなデータ解析といったユースケースにおいて大きく高速化に貢献している。Hadoop MapReduceのジョブと異なり、SparkのLogicalPlan/PhysicalPlanは巨大化し、処理の連鎖も大きく、RDDに対する計算時間も長くなる。もし、不幸にもエラーや例外がTask実行中に発生した場合、処理の連鎖の全体を再実行する必要が出た場合、計算ロスのコストはかなり大きいものとなる。従っ

yubessy 2018/09/05

Spark

リンク

SQL query in Spark/scala Size exceeds Integer.MAX_VALUE

yubessy 2018/08/05

Spark

リンク

pyspark.sql module — PySpark 2.1.0 documentation

Module Context¶ Important classes of Spark SQL and DataFrames: pyspark.sql.SparkSession Main entry point for DataFrame and SQL functionality. pyspark.sql.DataFrame A distributed collection of data grouped into named columns. pyspark.sql.Column A column expression in a DataFrame. pyspark.sql.Row A row of data in a DataFrame. pyspark.sql.GroupedData Aggregation methods, returned by DataFrame.groupBy

yubessy 2018/07/28

Spark

リンク

Apache Spark: SparkSQLリファレンス〜関数編・日付・時刻関数〜

add_months(startDate: Column, numMonths: Int) startDate に numMonths を加算した日付を返します。 sql: select ( startDate, numMonths ) from ... DataFrame: df.select( ( $"startDate", $"numMonths" ) ) 例) startDate = “2015-10-31 01:20:50”, numMonths = 1の場合、”2015-11-30 01:20:50″が返ります。

yubessy 2018/07/22

Spark

リンク

Spark dataframe transform multiple rows to column

yubessy 2018/07/16

Python
Spark

リンク

AWS Glue 新しくサポートされたScalaでETL Job作成を試してみました | DevelopersIO

はじめに AWS Glueは、Pythonに加えてScalaプログラミング言語をサポートし、AWS Glue ETLスクリプトの作成時にPythonとScalaを選択できるようになりました。新しくサポートされたScalaでETL Jobを作成・実行して、ScalaとPythonコードの違いやScalaのユースケースについて解説します。 AWS Glue Now Supports Scala in Addition to Python ScalaでETL Jobを作成して実行する ETL Jobは、ソース、ターゲット、カラムのマッピング、ETL言語などを指定すると対応したETLコードが自動生成されます。その生成されたコードに対して、さらにテンプレートを追加したり、コードを編集します。では早速、ScalaでETL Jobを作成してみます。 Job Properties 全般的なETL Jobに

yubessy 2018/07/01

リンク

Sparkサンプル(Hishidama's Spark example Memo)

概要 Sparkでのプログラミングは、Scalaのコレクションの関数の記述と似ている。 ScalaのコレクションではRangeやList等のインスタンスを作ってそれに対してmapやfilter関数を呼び出すが、 SparkではまずSpark用のオブジェクトを作り、そこからコレクションっぽいオブジェクトやファイルを読み込むイテレーターを生成する。当初のSparkではRDDというクラスを使ってプログラミングしていたが、 Spark1.3からDataFrameというクラスが導入され、 Spark1.6からDatasetというクラスが導入された。Spark2.0ではDatasetが正式となっている。 RDDよりもDataFrameの方が（最適化が効いて）高速だが型情報が消えてしまう為、Datasetを使うのが良い。（DataFrameはDatasetに統合されている）参考： yubessyさん

yubessy 2018/06/11

Spark

リンク

Spark 3.5.1 ScalaDoc

yubessy 2017/11/02

リンク

Apache Spark - Dataset operations fail in abstract base class? (Scala) - Codedump.io

yubessy 2017/01/27

Spark

リンク

AWS re:Invent 2016: Deep Dive: Amazon EMR Best Practices & Design Patterns (BDM401)

AWS re:Invent 2016: Deep Dive: Amazon EMR Best Practices & Design Patterns (BDM401) Amazon EMR is one of the largest Hadoop operators in the world. In this session, we introduce you to Amazon EMR design patterns such as using Amazon S3 instead of HDFS, taking advantage of both long and short-lived clusters, and other Amazon EMR architectural best practices. We talk about how to scale your cluster

yubessy 2017/01/07

リンク

LINE DEVELOPER DAY 2016 開催のお知らせ « LINE Engineers' Blog

LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog saegusa2017-04-16Yoshihiro was a network engineer at LINE, responsible for all levels of LINE's infrastructure. Since being named Infra Platform Department manager, he is finding ways to apply LINE's techno logy and business goals to the platform. こんにちは。LINEでネットワークやデータセンターを担当している三枝です。2017年1月にJANOG39で登壇する機会を頂きましたので、今回

yubessy 2016/12/23

リンク

Cloudera Blog

In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturing—it’s hard to overstate the transf ormation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post

yubessy 2016/12/16

Spark

リンク

Apache SparkをScalaTestで動かしたい - CLOVER🍀

このところ、SparkをStandalone ModeやYARNで動かしていましたが、もうちょっと機能的な感覚をつかみたいと思いまして。で、毎度Spark Submitしてもいいのですが、テストコードで動かせないかなぁ、と…。調べた感じ、やれないこともなさそうな雰囲気…。 Testing Spark Streaming Applications http://eng.tapjoy.com/blog-list/testing-spark-streaming-applications https://spark-summit.org/2014/wp-content/uploads/2014/06/Testing-Spark-Best-Practices-Anupama-Shetty-Neil-Marshall.pdf ちょっと、やってみましょう！追記）ドキュメントをよーく見ると、ここに

yubessy 2016/12/16

Spark

リンク

Check if exists a Amazon S3 path from Apache Spark – Big Data Tech

yubessy 2016/12/13

Spark

リンク

Apache Sparkの3つのAPI: RDD, DataFrameからDatasetへ - yubessy.hatenablog.com

はじめに Sparkの基本的な仕組みデータコレクションの操作のためのAPI 1. RDD - ネイティブなオブジェクトのコレクション 2. DataFrame - 基本的な型の値からなるテーブル RDD v.s. DataFrame 3. Dataset - RDDとDataFrameの長所を併せ持つコレクション RDD, DataFrameからDatasetへの書き換え DataFrameからDatasetへ RDDからDatasetへおわりにはじめに Livesense Advent Calendar 2016の11日目の記事です。昨今ではAmazon Elastic Mapreduce (EMR)などのマネージドサービスの登場により、分散データ処理基盤を構築・運用するハードルは劇的に下がっています。ソフトウェアの選択肢も広がり、特にApache Sparkはオンメモリ処理を