タグ

rddに関するjiroron666のブックマーク (6)

  • Spark Streamingメモ(Hishidama's Apache Spark Streaming Memo)

    概要 Spark Streamingは、流れてくるデータ(ストリーム)を処理する機能。 次々に流れてくるデータを(短い間隔で)繰り返しバッチ処理する。 大抵は結果をファイルシステム上に格納する。バッチ処理の都度書き込まれるので、ファイルが増えていくことになる。 短い間隔でバッチ処理を行う形なので、高スループット(単位時間当たりの処理能力が高い)であるが、レスポンス(応答時間)は遅くなる。 Spark Streamingを扱う場合、StreamingContextクラスを使う。 入力データはDStream(discretized stream、離散ストリーム)というクラスで扱う。 DStreamはRDDではないが、RDDと似たメソッドを持っている。(それらのメソッドを使って処理を記述することを「バッチ処理」と呼んでいるように思う) import org.apache.spark.stream

  • SparkのRDDについて - TASK NOTES

    Apache Spark の RDD について。 RDDの基 耐障害性分散データセットであるRDD(Resilient Distributed Dataset)の特徴は以下の通りです。 イミュータブルなオブジェクトの分散コレクションである。 復数のパーティションに分割されクラスタの各ノード上で処理される。 生成や変換が遅延評価される。 RDD は復数のマシンから構成されるクラスタ上での分散処理を前提として設計されており、内部的にはパーティションに分割されています。Spark ではこのパーティションが分散処理の単位となり、パーティションごとに復数のマシンで処理することによって、単一のマシンでは処理しきれない大量のデータを扱うことができるのです。 Scala Doc - org.apache.spark.rdd.RDD Java Doc - org.apache.spark.api.java

    SparkのRDDについて - TASK NOTES
  • Spark RDDメモ(Hishidama's Apache Spark RDD Memo)

    RDDの不変とは RDDの不変(イミュータブル)とは、“依存RDD(系譜)”と“処理内容”が変わらないという意味であり、「“処理した結果のデータ(値)”が常に変わらない」という意味ではない。[2014-09-08] 「一度出来上がったデータ(値)は、正常な手段では変更されない」という意味では、データが不変と言えなくもないが。 Sparkでは、障害が起きてRDDの一部が消失すると、入力元の(依存している)RDDを使って再処理してデータを作り直す。 基的には、依存RDDのデータ(値)が障害前と同じであれば、再処理した結果のデータも障害前と同じになる。 しかし、障害前と同じにならないケースもある。 破損していない入力データが見つかるまで再帰的に依存RDDを辿っていくことになるが、一番先頭まで辿り着いてしまうと、HDFS等の外部システムからデータを再度読み込むことになる。 もしそのデータの内容が

  • Apache Sparkの勉強-実際に動かしてRDDを操作してみよう - Tomo's IT Blog

    前回は、Apache Sparkのトップページを眺めて超概要を勉強しました。 tmnj.hatenablog.com Apache Sparkってなに?と聞かれたら、「高度なDAG実行エンジンを備えた大規模データ高速処理基盤だよ!Hadoopより100倍速いよ!いろんな言語を使えるし、便利な拡張機能もあるよ、SQLで構造化データを扱えるし、リアルタイム処理もできるし、機械学習とか使えるし、グラフデータも処理できるよ。それも高速にね!!」と教えてあげましょう^^b DAGってなに?と聞かれたら、瞬時に「Directed acyclic graphの略で日語だと有向非巡回グラフというよ」とすらすら言えるとかっこいいですね!! 練習しておきましょう!(答えになってない) ということで、今回は実際にSparkをインストールし、以下のQuick Startを読み進めながら実際に動かしてみたいと思い

    Apache Sparkの勉強-実際に動かしてRDDを操作してみよう - Tomo's IT Blog
  • Spark内部構造解説ドキュメントのリンク集 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? Apache Sparkの内部構造・動作について説明している情報源を紹介します(今後、随時更新していきたいと思いますので、誤り・他の情報源などありましたらお知らせください)。 (翻訳を除き)全て英語のスライド・文書ですが、長い文が書かれているものは少ないので、理解できるかと思います。 全体像 A Deeper Understanding of Spark’s Internals https://spark-summit.org/2014/wp-content/uploads/2014/07/A-Deeper-Understanding-

    Spark内部構造解説ドキュメントのリンク集 - Qiita
  • Apache Spark Architecture

    This is the presentation I made on JavaDay Kiev 2015 regarding the architecture of Apache Spark. It covers the memory model, the shuffle implementations, data frames and some other high-level staff and can be used as an introduction to Apache SparkRead less

    Apache Spark Architecture
  • 1