NTT Tech Conference #2 にて話した資料 時間が足りなかったので全部は話せなかった。Read less
速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD(Resilient Distributed Datasets)を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。 これにより、SparkはHadoopよりも格段に高速である。 データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD(Resilient Distributed Datasets)とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage(データに提供された処理の履歴)を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。 これに
This document summarizes a benchmark study of file formats for Hadoop, including Avro, JSON, ORC, and Parquet. It found that ORC with zlib compression generally performed best for full table scans. However, Avro with Snappy compression worked better for datasets with many shared strings. The document recommends experimenting with the benchmarks, as performance can vary based on data characteristic
NTTデータのソリューションとは NTTデータは、大規模データの活用にHadoopを利用した、分散処理のアプローチで多くの実績があります。 従来は夜間時間帯で実行していたバッチ処理を高速化することで、より早く情報を活用できる機会を創りました。 また、機器の容量不足などにより数日間分で捨てていたデータを数か月~年単位で保存することで、分析の精度を高めることができるようになりました。 実現したいことに応じて、数台~千台規模のサーバーからなるHadoopシステムを導入するなどの実績がございます。 加えて、データの活用シーンに応じて様々な分散処理環境を提供してきた実績もございます。 そして、数年以上のHadoopシステム運用で得られたノウハウを蓄積しています。 分散処理技術Hadoopについて Hadoop, Spark, Kafkaを利用した分散処理システムに強み NTTデータでは、Hadoop
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く