[B! Spark] somemoのブックマーク

somemo id:somemo

Sparkに関するsomemoのブックマーク (4)

Apache Hadoop YARN: Avoiding 6 Time-Consuming "Gotchas" | Cloudera Developer Blog
ClouderaNOW Learn about the latest innovations in data, analytics, and AI | July 16 Register now
somemo 2014/12/31
hive
リンク
Resilient Distributed Datasetsに関する論文まとめ（１章〜５章 - 夢とガラクタの集積場
こんにちは。 Resilient Distributed Datasetsに関する論文「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」（http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf）について、概念と動作概要が書かれた１章〜５章を読んだので、１投稿にまとめます。基本的には以前見たスライドの詳細化版なんですが、一部スライド見ているだけだとわからない情報もあり、参考になりました。 Sparkが対象とするような「基本的には全データに対して同じ演算を行う」アプリケーションにおいては読み取り専用というRDDの性質がマイナスにならないこと、読み取り専用であることで一貫性考慮が簡略
somemo 2014/09/10
Spark

scala
リンク
Apache Sparkメモ(Hishidama's Apache Spark Memo)
概要 [/2017-01-14] Hadoopとの比較 [/2014-09-12] サンプル [/2017-01-22] インストール開発環境の構築 [2017-01-22] インストール [/2017-01-14] Sparkシェル [/2014-09-19] 実行方法 [/2017-01-18] API（RDD系） SparkContext [/2014-09-15] RDD [/2017-07-26] パーティション [2014-09-07] Kryo（シリアライズ） [/2015-01-15] Spark SQL [/2014-09-02] Hive操作 [2014-09-01] Streaming [2014-09-02] API（Dataset系） SparkSession [2017-01-14] Dataset [/2020-10-08] Encoder [2017-01
somemo 2014/09/10
Spark

scala
リンク
Hadoop超える機械学習向きのビッグデータ処理基盤、Spark 1.0が正式公開
米Apache Software Foundationは、ビッグデータ処理を分散クラスター上で高速に実行できる処理基盤「Spark 1.0」を2014年5月30日（米国時間）に公開した。 HDFSを介してストレージ経由のやり取りが多くなるHadoopと比べて、インメモリー処理を主体とするSparkでは、より高速で低遅延の分析が可能となる。次世代のビッグデータ処理基盤として期待が集まっているフレームワークである。 SparkではHadoopと同じく、処理対象となるビッグデータをHDFSから読み取ることができるが、以後の処理は基本的にインメモリーで行う。このため、機械学習やグラフ計算のように繰り返し型の計算が多い処理を、Hadoopよりも高速に実行できる（関連記事：NECがビッグデータの機械学習を高速化する技術を開発、インメモリー処理やMPIを導入）。 Sparkは、もともと米Universi
somemo 2014/07/08
hadoop

Spark
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx