[B! Hadoop][Spark] decoy2004のブックマーク

第21回　Sparkの設計と実装［2］～Sparkにおけるデータ共有の仕組みと耐障害性の実現方法 | gihyo.jp

はじめに今回は、Sparkにおいて複数のジョブでデータを共有する仕組みと、耐障害性を実現する方法を説明します。複数ジョブにおけるデータ共有の方法 Sparkは複数のジョブでデータを共有するために、RDDを永続化する機能を有します。いったんRDDが永続化（永続化RDD）されると、永続化RDDを利用するジョブにおいては、RDDの構成要素のデータを再度外部のストレージなどから読み出す必要はなく、また、読み出したデータから当該永続化RDDを生成するためのmap()やfilter()などの呼び出しからなる一連の処理を省略することができます（図1⁠）⁠。図1　復数のジョブからの永続化RDDの共有永続化されたRDDは、当該RDDを最初に処理するジョブを実行する際、パーティション単位でそれぞれのRDDを処理する計算機上に永続化されます。永続化先としては、おもに計算機のメモリ（キャッシュ）と二次記憶

decoy2004 2016/06/08

Spark
Hadoop

リンク

Sparkを用いたビッグデータ解析〜前編〜

QCon Tokyo 2015での発表資料です。「Apache Sparkがデータサイエンティストの次世代分析基盤となる」というテーマで発表しました。前編はこちら→http://www.slideshare.net/x1ichi/spark-47265009?qid=75406dab-5016-4a0e-ba9a-772265434480

decoy2004 2015/04/22

Spark

リンク

MapReduce代替の「Apache Spark 1.0」が登場 | OSDN Magazine

非営利団体のApache Software Foundation（ASF）は5月30日、大規模なデータ処理を行うための分析ソフトウェア「Apache Spark 1.0」のリリースを発表した。「Apache Hadoop」のMapReduceを置き換えることを目指すもので、多くの変更点が加えられている。 Apache Sparkは米カリフォルニア大学バークレー校のAMPLabで開発された分散コンピューティングフレームワーク。高度なDAG（Directed Acyclic Graph）実行エンジンを持ち、より小さい粒度での処理を行うのが特徴。バッチモードで処理を行うMapReduceと比べるとインメモリ利用時に最大100倍の高速化が可能で、かつより高い安定性もあるという。HDFS、HBase、Cassandraに対応し、スタンドアロンのほか「Apache Mesos」、Amazon AWS（

decoy2004 2014/06/04

『DAG実行エンジンを持ち、より小さい粒度での処理を行うのが特徴。バッチモードで処理を行うMapReduceと比べるとインメモリ利用時に最大100倍の高速化が可能で、かつより高い安定性もある』

リンク

実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった！ - #garagekidztweetz

Hadoop ソースコードリーディング #16 日　時： 2014年5月29日（木） 19:00～21:00 （受付開始 18:45）場　所：豊洲センタービル（NTTデータ） ← いつもの隣のビル！地　図： http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html （有楽町線豊洲駅3番出口を出て、左手奥の建物。エスカレータを上がった1Fに受付を設営します）定　員： 120名 Spark 、個人的にはまだ触ったことがないのだけれど、久々に Hadoop ソースコードリーディングが開催されるということで、参加してきました。今回は、 Hadoop ソースコードリーディングというより、 Spark ソースコードリーディングだったというのはおいておいて、、飲み食いなし！本当にソースを読んだ！！スピーカーなお三方のプレ

decoy2004 2014/05/30

spark
hadoop

リンク

Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan

データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

decoy2004 2014/03/16

『ロジスティック回帰のような機械学習アルゴリズムは従来のHadoopベースの実装に比べて100倍高速に実行できます』

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

HadoopとSparkに関するdecoy2004のブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

関連タグで絞り込む (8)

HadoopとSparkに関するdecoy2004のブックマーク (5)

第21回 Sparkの設計と実装［2］～Sparkにおけるデータ共有の仕組みと耐障害性の実現方法 | gihyo.jp

Sparkを用いたビッグデータ解析 〜 前編 〜

MapReduce代替の「Apache Spark 1.0」が登場 | OSDN Magazine

実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった！ - #garagekidztweetz

Cloudera Standard のご案内 ~ 無償版 大幅機能強化のお知らせ | Cloudera Japan

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第3週）

今週のはてなブックマーク数ランキング（2024年9月第2週）

月間はてなブックマーク数ランキング（2024年8月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

第21回　Sparkの設計と実装［2］～Sparkにおけるデータ共有の仕組みと耐障害性の実現方法 | gihyo.jp

Sparkを用いたビッグデータ解析〜前編〜

Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan