[B! Hadoop][Spark] wlbhiroのブックマーク

wlbhiro id:wlbhiro

HadoopとSparkに関するwlbhiroのブックマーク (7)

分散システムについて語らせてくれ
NTT Tech Conference #2 にて話した資料時間が足りなかったので全部は話せなかった。Read less
wlbhiro 2017/10/27
Distribute

Spark

Hadoop

分散処理
リンク
SparkとHadoop MapReduceの違い
速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD（Resilient Distributed Datasets）を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。これにより、SparkはHadoopよりも格段に高速である。データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD（Resilient Distributed Datasets）とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage（データに提供された処理の履歴）を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。これに
wlbhiro 2017/03/08
Hadoop

MapReduce

Spark

Compare
リンク
org.apache.hadoop.io.compress (Apache Hadoop Main 2.7.2 API)
wlbhiro 2016/12/30
Spark

Hadoop

Compression

gzip

bzip2
リンク
File Format Benchmark - Avro, JSON, ORC & Parquet
This document summarizes a benchmark study of file formats for Hadoop, including Avro, JSON, ORC, and Parquet. It found that ORC with zlib compression generally performed best for full table scans. However, Avro with Snappy compression worked better for datasets with many shared strings. The document recommends experimenting with the benchmarks, as performance can vary based on data characteristic
wlbhiro 2016/12/30
Parquet

JSON

ORC

Avro

format

Hadoop

Spark

Compression

Hive
リンク
NTTデータのHadoopソリューション：Hadoop構築・運用ソリューション
NTTデータのソリューションとは NTTデータは、大規模データの活用にHadoopを利用した、分散処理のアプローチで多くの実績があります。従来は夜間時間帯で実行していたバッチ処理を高速化することで、より早く情報を活用できる機会を創りました。また、機器の容量不足などにより数日間分で捨てていたデータを数か月～年単位で保存することで、分析の精度を高めることができるようになりました。実現したいことに応じて、数台～千台規模のサーバーからなるHadoopシステムを導入するなどの実績がございます。加えて、データの活用シーンに応じて様々な分散処理環境を提供してきた実績もございます。そして、数年以上のHadoopシステム運用で得られたノウハウを蓄積しています。分散処理技術Hadoopについて Hadoop, Spark, Kafkaを利用した分散処理システムに強み NTTデータでは、Hadoop
wlbhiro 2016/12/14
NTT

NTT DATA

Spark

Hadoop

事例

CaseStudy
リンク
Download Elasticsearch for Hadoop Free
wlbhiro 2016/01/06
Spark

Hadoop

elasticsearch
リンク
Tech Blog
社外の人に情報共有する際、最近ではNotionやHackMDを利用することが多い。HackMDは2年ほど前に教えていただいてから使っているが、Markdownで書けることと、プレビューで表示されること、共有もシンプルで簡単なことが気に入って...
wlbhiro 2015/12/21
素晴らしい。

Hadoop

Spark
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx