[B! Spark] decoy2004のブックマーク

decoy2004 id:decoy2004

Sparkに関するdecoy2004のブックマーク (14)

シングルノードApache Sparkの有用性について - Qiita
Apache Sparkをご存知でしょうか。去年くらいからとても流行っている分散処理フレームワークです。大量のデータを集計・分析することができます。公式サイトによれば、インメモリで動作する場合、Hadoop MapReduceより100倍早いそうです。分散処理は、基本的には１台のマシンでは処理しきれない規模の集計や分析が必要となる場合に必要となります。 Sparkは分散処理のフレームワークなわけです。大量のマシンをクラスターとして扱うことに長けています。そして当たり前ですが分散処理にはどうしてもオーバーヘッドが発生します。いくらSparkが高速といっても、シングルノードで実現可能な集計処理をSparkで動かせば遅くなります。では、シングルノードで計算できるようなデータしか持たないシステムではSparkを使うことにメリットはないのかというと、そんなことはありません。私は実際に
decoy2004 2016/10/28
『CPUコア数があれば自前のシングルスレッド処理よりはたぶん早い』

spark

apache

framework
リンク
第21回　Sparkの設計と実装［2］～Sparkにおけるデータ共有の仕組みと耐障害性の実現方法 | gihyo.jp
はじめに今回は、Sparkにおいて複数のジョブでデータを共有する仕組みと、耐障害性を実現する方法を説明します。複数ジョブにおけるデータ共有の方法 Sparkは複数のジョブでデータを共有するために、RDDを永続化する機能を有します。いったんRDDが永続化（永続化RDD）されると、永続化RDDを利用するジョブにおいては、RDDの構成要素のデータを再度外部のストレージなどから読み出す必要はなく、また、読み出したデータから当該永続化RDDを生成するためのmap()やfilter()などの呼び出しからなる一連の処理を省略することができます（図1⁠）⁠。図1　復数のジョブからの永続化RDDの共有永続化されたRDDは、当該RDDを最初に処理するジョブを実行する際、パーティション単位でそれぞれのRDDを処理する計算機上に永続化されます。永続化先としては、おもに計算機のメモリ（キャッシュ）と二次記憶
decoy2004 2016/06/08
Spark

Hadoop
リンク
SparkアプリケーションのためのJavaガベージコレクションのチューニングについて - TEPPEI STUDIO
この記事は、インテルの SSG STOビッグデータテクノロジーグループのメンバーからDataBricksに寄稿されたブログを翻訳したものです。誤訳がありましたら、@teppei_tosaに御連絡ください。 Sparkは、その優れた性能、シンプルなインターフェイス、および分析や計算のための豊富なライブラリによって、幅広い業界で採用されてきています。ビッグデータエコシステムにおける多くのプロジェクトと同様に、Sparkは、Java仮想マシン（JVM）上で実行されます。Sparkはメモリに大量のデータを格納することにおいて、Javaのメモリ管理とガベージコレクション（GC）に大きく頼っています。また、プロジェクトTungstenなどの新たな取り組みは、将来のバージョンで、メモリ管理のさらなる簡素化と最適化を目指しています。しかし、今日時点でも、JavaのGCオプションとパラメータを理解しているユ
decoy2004 2016/06/03
gc

java

spark

チューニング
リンク
詳解 Apache Spark
2016年4月29日紙版発売 2016年4月29日電子版発売下田倫大，師岡一成，今井雄太，石川有，田中裕一，小宮篤史，加嵜長門　著 B5変形判／352ページ定価3,960円（本体3,600円＋税10%） ISBN 978-4-7741-8124-0 Gihyo Direct Amazon 楽天ブックスヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle ブックライブ楽天kobo honto この本の概要 Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ，バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため，さまざまなシーンのデータ分析を強力にサポートします。本書では，Sparkの分散処理の基礎であるRDDのしく
decoy2004 2016/04/16
spark

book
リンク
Javaのマイクロフレームワーク ― この新トレンドは見逃せない | POSTD
この記事は、JavaとScalaの例外分析・パフォーマンス監視のツール Takapi の blog に投稿されたものです。 Javaのマイクロフレームワークとは何か、推奨される理由とは？どんなプログラミング言語にも、長所と短所はあるものです。例えばJavaは、安全性の高さや、厳しいテストを経ていること、後方互換性などの利点を持つ言語です。しかし、その代償として、アジリティ（俊敏性）や合理性といった面が少なからず犠牲になっています。冗長で、Java自体が肥大化しているという事実も否定できません。とはいえ、新規開発や大規模な開発を行いたい場合、JVM（Java仮想マシン）はバックエンドとして非常に魅力的です。JVMはパワフルな上に、非常に厳しい環境でテストされています。このような利点があるため、結果的にJavaは広く使用され、積極的にデプロイされているのです。しかし、このJavaの現状を皆
decoy2004 2015/07/14
java

framework

フレームワーク

spark

programming
リンク
https://jp.techcrunch.com/2015/06/16/20150615ibm-pours-researchers-and-resources-into-apache-spark-project/
decoy2004 2015/06/16
spark

IBM

apache

oss

ビッグデータ
リンク
Sparkを用いたビッグデータ解析〜前編〜
9. MapReduceでWord Count 9 Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua Ut enim ad minim veniam, quis nostrud exercitation ullamco lorem 2 lorem 1 ipsum 1 dolor 1 lorem 1 lorem 1 sit 1 amet 1 consect.. 1 do 1 eiusmod 1 tempor 1 adipisic.. 1 elit 1 sed 1 ipsum 1 ipsum 1 ipsum 1 dolor 1 ipsum 3 sit 1 sit 1 sit 1 dolor 1 si
decoy2004 2015/04/22
Spark

spark

MapReduce

slideshare

hadoop

OSS

ビッグデータ
リンク
カエルでもわかる！Spark / MLlib でやってみる協調フィルタリング（後編） - ALBERT Engineer Blog
はじめに前編では MLlib で実装されている協調フィルタリングについて、アルゴリズムの面から解説してみました。いわば理論編です。後編は実践編として Java コードや性能評価実験の結果を見ていきます。 MLlib 協調フィルタリングの実行 MLlib の協調フィルタリング org.apache.spark.mllib.recommendation.ALS を利用する Java のコード例を以下に示します。 import org.apache.spark.api.java.JavaRDD; import org.apache.spark.mllib.recommendation.ALS; import org.apache.spark.mllib.recommendation.MatrixFactorizationModel; import org.apache.spark.mll
decoy2004 2014/11/06
spark

機械学習

java

apache
リンク
オープンソースの分散プロセス実行環境であるApache Sparkトレーニング2コースを11月から開講 | Web担当者Forum
NECマネジメントパートナー株式会社（代表取締役執行役員社長　松倉　肇、本社：神奈川県川崎市、以下NECマネジメントパートナー）は、本格的なビッグデータ時代の到来に備え、オープンソースの分散プロセス実行環境であるApache Sparkのトレーニング2コースを11月25日から順次開講いたします。オープンソースの分散プロセス実行環境であるApache SparkはApache Hadoopを補完して、従来のバッチ指向の方法に対し、バッチ処理／ストリーム処理の統合による大量データの高速処理を実現することで、ビッグデータアプリケーションやエンドユーザーの期待に応えるデータの高速なインタラクティブ分析を可能にします。ビッグデータの隆盛に備え、NECマネジメントパートナーでは早くからトレーニングコースを提供してまいりましたが、今回、オリジナルコースである「Apache Spark 概要」（1日間コ
decoy2004 2014/10/26
spark

apache

NEC

トレーニング
リンク
Java 8でSpark 2.0.0が楽しそう - Challenge Engineer Life !
今年はDropwizardが盛り上がる、という話をチラホラ聞きます。今年流行るかもしれないDropwizardフレームワークを使ってみる 2014ブレイク確実！JavaベースのポータブルなWebフレームワーク Dropwizard DropwizardでWebアプリケーションを作るリリースノートをみるとバージョンとしては2013年3月に0.6.2が出て、2014年6月現在0.7.x系のようです。 0.7.0-SNAPSHOTのリリースノートみると、「Upgraded to Java 7」とあって、Java 8出たんだけどなぁと思ったり。そこで思い出したのですが、Java 8が出たとき話題になっていたSparkってどんななんだろう？と触ってみました。 Spark Micro Web Framework トップページの作りがうまい感じで http://www.sparkjava.com/
decoy2004 2014/09/24
spark

java

java8
リンク
Java 8 ＆機械学習の視点でみる Spark 1.0 リリース - ALBERT Engineering Blog
はじめにさる 5/30、今か今かと待ち望まれていた Spark 1.0 が遂にリリースされましたね！その前日 5/29 には都内で実際のところ Spark ソースコードリーディングだった Hadoop ソースコードリーディング #16 が開催されるなど、 Spark についての注目度が俄然高まってきているように思えます。そんなわけで、0.9.1 からの変更点や機能追加について、Java と機械学習に携わるエンジニアの視点で今回の 1.0 リリース内容をまとめてみました！何が変わったのか？ Spark : Java 8 のラムダ式サポート Java エンジニア的に今回の一番の変更点は、何と言っても Java 8 のラムダ式への対応、ですね。今年 3 月の Java 8 正式リリース後、主に Stream API の周辺においてラムダ式を書く機会が徐々に増えつつあるかと思い
decoy2004 2014/07/17
『クラス分類・回帰。行列計算特異値分解、主成分分析』

spark

java8

主成分分析
リンク
MapReduce代替の「Apache Spark 1.0」が登場 | OSDN Magazine
非営利団体のApache Software Foundation（ASF）は5月30日、大規模なデータ処理を行うための分析ソフトウェア「Apache Spark 1.0」のリリースを発表した。「Apache Hadoop」のMapReduceを置き換えることを目指すもので、多くの変更点が加えられている。 Apache Sparkは米カリフォルニア大学バークレー校のAMPLabで開発された分散コンピューティングフレームワーク。高度なDAG（Directed Acyclic Graph）実行エンジンを持ち、より小さい粒度での処理を行うのが特徴。バッチモードで処理を行うMapReduceと比べるとインメモリ利用時に最大100倍の高速化が可能で、かつより高い安定性もあるという。HDFS、HBase、Cassandraに対応し、スタンドアロンのほか「Apache Mesos」、Amazon AWS（
decoy2004 2014/06/04
『DAG実行エンジンを持ち、より小さい粒度での処理を行うのが特徴。バッチモードで処理を行うMapReduceと比べるとインメモリ利用時に最大100倍の高速化が可能で、かつより高い安定性もある』

spark

apache

MapReduce

Hadoop

ビッグデータ

HDFS
リンク
実際のところ Spark ソースコードリーディングだった #hadoopreading #16 はネ申回だった！ - #garagekidztweetz
Hadoop ソースコードリーディング #16 日　時： 2014年5月29日（木） 19:00～21:00 （受付開始 18:45）場　所：豊洲センタービル（NTTデータ） ← いつもの隣のビル！地　図： http://www.nttdata.com/jp/ja/corporate/profile/guide/map.html （有楽町線豊洲駅3番出口を出て、左手奥の建物。エスカレータを上がった1Fに受付を設営します）定　員： 120名 Spark 、個人的にはまだ触ったことがないのだけれど、久々に Hadoop ソースコードリーディングが開催されるということで、参加してきました。今回は、 Hadoop ソースコードリーディングというより、 Spark ソースコードリーディングだったというのはおいておいて、、飲み食いなし！本当にソースを読んだ！！スピーカーなお三方のプレ
decoy2004 2014/05/30
spark

hadoop
リンク
Cloudera Standard のご案内 ~ 無償版大幅機能強化のお知らせ | Cloudera Japan
データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。
decoy2004 2014/03/16
『ロジスティック回帰のような機械学習アルゴリズムは従来のHadoopベースの実装に比べて100倍高速に実行できます』

apache

hadoop

spark

MapReduce

ビッグデータ
リンク
1