タグ

sparkに関するSurgoのブックマーク (3)

  • スケーラブルリアルタイムデータ分析入門

    絶え間なく入ってくる大量のストリームデータをリアルタイムに処理・分析するために必要な概念とその実現手法を紹介します。任意のクエリに対応しながら、スケーラビリティと信頼性をどう担保するのか、障害発生時にデータを復旧しやすく、汎用的で拡張性や保守性の高いシステム設計を実現するには、どのようなデータモデルとアーキテクチャが必要なのか。データ分析を行うエンジニアが備えておくべき知識と情報について、従来のアーキテクチャが持つ問題を解消するために著者が開発した「ラムダアーキテクチャ」のデータモデルに沿って解説します。 目次 まえがき 1章 ビッグデータを扱うための新しいパラダイム 1.1 書の構成 1.2 伝統的なデータベースを使ったスケールの方法 1.3 NoSQLは万能薬ではない 1.4 第一原理 1.5 ビッグデータシステムに望まれる特性 1.6 完全増分型アーキテクチャにおける問題点 1.7

    スケーラブルリアルタイムデータ分析入門
  • Apache Spark™ - Unified Engine for large-scale data analytics

    Apache Spark™ is a multi-language engine for executing data engineering, data science, and machine learning on single-node machines or clusters.

    Apache Spark™ - Unified Engine for large-scale data analytics
  • Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場

    こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張

    Apache Sparkってどんなものか見てみる(その1 - 夢とガラクタの集積場
  • 1