A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Apache Sparkはオープンソースのクラスタコンピューティングフレームワークである。カリフォルニア大学バークレー校のAMPLabで開発されたコードが、管理元のApacheソフトウェア財団に寄贈された。Sparkのインタフェースを使うと、暗黙のデータ並列性と耐故障性を備えたクラスタ全体をプログラミングできる。 日経BP社が発表した「ITインフラテクノロジーAWARD 2015」において、SparkはDockerに次ぐ準グランプリとされた[2]。 フォールトトレラントシステムで管理され、複数マシンのクラスタに分散されたデータ項目の読み取り専用多重集合であるRDD(resilient distributed dataset)と呼ばれるデータ構造を中心とするアプリケーションプログラミングインターフェイスを備えている。MapReduceは、分散プログラム上で特定の線形データフロー構造を強制する
紹介 この投稿は、Advent Calendar 2015 .. NextGen DistributedComputing system をキッカケにして初めています! Advent Calendar1日目の記事です。 方針について Spark、SparkStreamingが初めての方でも順を追っていただければスムーズに理解できるよう書きたいと思います。 開発はScalaベースです。Spark処理を書くためにScalaガッツり使いこなせないと分からないわけではないですが、 基本的なことは必要かと思います。 Scala基礎を習得するためには下記リンク先を参照することをお勧めいたします。 https://gist.github.com/scova0731/2c405ea55488d804b366 SparkStreamingの紹介 SparkStreamingとは Sparkコアの拡張モジュー
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? TungstenのShuffleまでカバーされていて、感動してしまったので、翻訳(意訳)してみました。 元記事: Spark Architecture: Shuffle Spark Architecture: Shuffle これは Apache Spark のアーキテクチャに関する2本目の記事です。今回は、Spark デザインの中で、もっと面白い Shuffle について詳しく紹介します。前回の記事は、Spark のアーキテクチャとメモリ管理についてでした。 一般的に Shuffle とはなんでしょうか? 電話の履歴リストがテーブルに
You call various methods on the RDD that accept functions as parameters. // set up an example -- an RDD of arrays val sparkConf = new SparkConf().setMaster("local").setAppName("Example") val sc = new SparkContext(sparkConf) val testData = Array(Array(1,2,3), Array(4,5,6,7,8)) val testRDD = sc.parallelize(testData, 2) // Print the RDD of arrays. testRDD.collect().foreach(a => println(a.size)) // Us
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く