[B! spark][hadoop] BigFatCatのブックマーク

BigFatCat id:BigFatCat

sparkとhadoopに関するBigFatCatのブックマーク (2)

alluxioをさわってみた - Qiita
ちょっと気になった記事だったのでさわってみた。 http://www.nttdata.com/jp/ja/insights/trend_keyword/2016042101.html (Apache Sparkより100倍速い？？) 印象としてはHDFSをそのままインメモリにした感じ？ HDFSもRAID0にしてソフト上で冗長担保するみたいなイメージなので、インメモリでデータとんでも大丈夫ってことかな？最近メモリも安いしほんとに100倍早いなら実用的かも ※ amazon 計算で32GBが ¥16,500 = 1TBで ¥515,625 くらい ※ドキュメントとか読まない派でQuickStartしか読んでないので勘違いは許してくださいmm alluxio SetUp ローカルにSparkがいてsampleにSparkがあったのでSparkとつなげてみる http://www.alluxi
BigFatCat 2017/03/29
hadoopのインメモリ版?

alluxio

hadoop

spark
リンク
Spark 2.0の性能検証の結果とボトルネックの考察
はじめに前回は、Spark 2.0の主な変更点としてSpark 1.6よりも性能が向上し、アプリケーションの実装が容易になったことを解説しました。また、その性能検証のシナリオとして、電力消費量データを集計し可視化するケースを想定することを解説しました。今回は、シナリオに基づいた検証を行うための環境（システム構成、パラメータ）とその検証結果を解説します。システム構成データ分析システムの概要データ分析システムは、図1のように管理画面とデータ分析アプリケーション、データ処理基盤の3つから成ります。設備企画担当者は管理画面を介してドリルダウン分析を行います。予めデータ分析アプリケーションで設備の負荷を集計し、その演算処理を実行するのがデータ処理基盤です。本連載で取り上げるデータ処理基盤にはHadoopおよびSparkを導入しています。ハードウェア構成データ処理基盤は仮想サーバ3台、物理
BigFatCat 2017/01/12
spark

hdfs

hadoop

hive
リンク
1