タグ

javaとr_langに関するshu_ohm1のブックマーク (1)

  • Apache Sparkとは?:Hadoopに続く分散処理のフレームワーク|データ分析用語を解説 - データビジュアライズで経営を視える化する/graffe グラーフ

    SparkはHadoopの後発として期待されるビッグデータ処理基盤 今日は「Apache Spark」という言葉について説明します。先日「Hadoop(ハドゥープ)」についての掲載をさせていただきましたが、その中でHadoopとは、 巨大データの取り扱いを目的とした分散処理のフレームワークである 分散処理によってビッグデータを高速に処理することができる Hadoopの利用者は自作したデータ処理のプログラムや他者が開発したツールプログラムをHadoop内に組み込んでビッグデータ処理を行う と説明させていただきました。またその他関連記事の中で、 Hadoop上で稼動するデータベースマネージメントシステム(DBMS)としてHive・Impalaがあり、 同じくHadoop上で稼動するスクリプト環境としてPigがある これらHadoop連携ソフトウェアの存在がビックデータ処理環境をより便利なものに

    Apache Sparkとは?:Hadoopに続く分散処理のフレームワーク|データ分析用語を解説 - データビジュアライズで経営を視える化する/graffe グラーフ
    shu_ohm1
    shu_ohm1 2017/03/30
    SparkはHadoopと比較して、主としてインメモリ処理による高速化を図り、データ格納方式としてHDFS以外にも Cassandra, OpenStack Swift, Amazon S3 等にも対応し、Java, Python, R から高度に制御できるといった特徴がある
  • 1