[B! Hadoop][Compare] wlbhiroのブックマーク

wlbhiro id:wlbhiro

HadoopとCompareに関するwlbhiroのブックマーク (4)

Cloudera Express and Cloudera Enterprise Features
wlbhiro 2018/04/16
cloudera

express

enterprise

Hadoop

Compare
リンク
SparkとHadoop MapReduceの違い
速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD（Resilient Distributed Datasets）を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。これにより、SparkはHadoopよりも格段に高速である。データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD（Resilient Distributed Datasets）とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage（データに提供された処理の履歴）を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。これに
wlbhiro 2017/03/08
Hadoop

MapReduce

Spark

Compare
リンク
File Format Benchmarks - Avro, JSON, ORC, & Parquet
File Format Benchmarks - Avro, JSON, ORC, & Parquet Hadoop Summit June 2016 The landscape for storing your big data is quite complex, with several competing formats and different implementations of each format. Understanding your use of the data is critical for picking the format. Depending on your use case, the different formats perform very differently. Although you can use a hammer to drive a s
wlbhiro 2016/08/03
Hadoop

HDP

HortonWorks

Compare

Avro

JSON

ORCFILE

ORC

Parquet
リンク
TEXTFILE/SEQUENCEFILE/RCFILEのサイズ比較
基本的には以下のエントリーを自分なりに再試・咀嚼したものです。 HDFS and Hive storage - comparing file formats and compression methods - Adaltas Hiveテーブルを作成する際、SequenceFileはTextFileに比べてMapReduce時の処理効率は概ね良くなる傾向にありますが、様々なヘッダー情報が付与されるためファイルサイズ的には若干冗長になります。僕もHiveを触り始めてまだ１ヶ月ちょっとなので色々調べている中、RCFileという、HDFS上でHiveテーブルのように構造化されたデータを扱うのに適したデータ構造がある、という事を知ったので、それぞれ以下３種のデータフォーマットについてデータサイズの比較を行いました。 TEXTFILE SEQUENCEFILE RCFILE ◯前提条件今回試験に使
wlbhiro 2016/07/20
Hive

SEQUENCEFILE

RCFile

Hadoop

Compression

Compare
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx