タグ

ブックマーク / www.ne.jp (3)

  • ひしだまのホームページ(Hishidama's HomePage)

    S-JIS[2002-02-26/2024-08-21] 変更履歴ひしだま's ホームページ ひしだまのホームページへようこそ! 簡単な注意と説明 [/2009-02-01] 趣味読書 気に入った漫画 [/2023-10-01] リプレイ集(ソードワールド等)の元ネタを記録 [/2008-11-19] 趣味音楽 [/2008-08-02] 趣味っぽくもない映画 [/2008-07-17]、断じて趣味でないアニメ [/2015-12-30], OVA [/2008-03-02]、滅多に見ないTV [/2008-05-05] 趣味自転車 [/2004-02-05] ちょっと言いたい 格言・慣用句・お約束の備忘録 [/2008-11-16] 試験必勝法(?) [2006-10-15] 他人の面白い一コマ [/2007-06-27] コンピューター関連 持っていたハードウェア [/201

  • Spark Streamingメモ(Hishidama's Apache Spark Streaming Memo)

    概要 Spark Streamingは、流れてくるデータ(ストリーム)を処理する機能。 次々に流れてくるデータを(短い間隔で)繰り返しバッチ処理する。 大抵は結果をファイルシステム上に格納する。バッチ処理の都度書き込まれるので、ファイルが増えていくことになる。 短い間隔でバッチ処理を行う形なので、高スループット(単位時間当たりの処理能力が高い)であるが、レスポンス(応答時間)は遅くなる。 Spark Streamingを扱う場合、StreamingContextクラスを使う。 入力データはDStream(discretized stream、離散ストリーム)というクラスで扱う。 DStreamはRDDではないが、RDDと似たメソッドを持っている。(それらのメソッドを使って処理を記述することを「バッチ処理」と呼んでいるように思う) import org.apache.spark.stream

  • Spark RDDメモ(Hishidama's Apache Spark RDD Memo)

    RDDの不変とは RDDの不変(イミュータブル)とは、“依存RDD(系譜)”と“処理内容”が変わらないという意味であり、「“処理した結果のデータ(値)”が常に変わらない」という意味ではない。[2014-09-08] 「一度出来上がったデータ(値)は、正常な手段では変更されない」という意味では、データが不変と言えなくもないが。 Sparkでは、障害が起きてRDDの一部が消失すると、入力元の(依存している)RDDを使って再処理してデータを作り直す。 基的には、依存RDDのデータ(値)が障害前と同じであれば、再処理した結果のデータも障害前と同じになる。 しかし、障害前と同じにならないケースもある。 破損していない入力データが見つかるまで再帰的に依存RDDを辿っていくことになるが、一番先頭まで辿り着いてしまうと、HDFS等の外部システムからデータを再度読み込むことになる。 もしそのデータの内容が

  • 1