Hadoopのワードカウントの例だとテキスト形式の入力ファイルが出てきますが、 Hadoopではそれ以外にもバイナリ形式のKey-Valueレコードを保存するためのフォーマットとしてSequenceFileというのがあります。 Hadoopは容量が少ないファイルを大量に扱うのは苦手です(ネームノードのメモリを圧迫する)。 なので容量が少ないファイルを1つのファイルにまとめると効率的になりますが、SequenceFileはその用途に使えます。また圧縮も使えます。 SequenceFileに関しては象本の4章に詳しく書かれていますが、ここで簡単に紹介したいと思います。まあ自分自身の備忘録ですね。 ファイルフォーマットはこんな感じです。 ヘッダー レコード レコード 同期 レコード レコード レコード 同期 レコード ところどころに同期マーカーがありますが、これによって1つのファイルを複数のスプ
速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD(Resilient Distributed Datasets)を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。 これにより、SparkはHadoopよりも格段に高速である。 データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD(Resilient Distributed Datasets)とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage(データに提供された処理の履歴)を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。 これに
Amazon EMR は、ビッグデータ環境とアプリケーションの構築および運用を簡略化します。EMR の関連機能には、手軽なプロビジョニング、マネージド型スケーリング、クラスターの再設定、共同開発用の EMR Studio などがあります。 数分でクラスターをプロビジョニング: EMR クラスターは、数分で起動できます。インフラストラクチャのプロビジョニングやクラスターの設定、構成、調整に頭を悩ませる必要はありません。これらのタスクを EMR に任せて、差別化できるビッグデータアプリケーションの開発に集中できます。 ビジネスニーズに合わせてリソースを簡単にスケーリング: EMR マネージドスケーリングポリシーを利用して、簡単にスケールアウト/スケールインができます。また EMR クラスターでは、使用量やパフォーマンスのニーズに合わせてコンピューティングリソースを自動的に管理できます。これによ
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
8. なぜHadoopが必要になったか 1 ● 生み出されるデータはどんどん増える。 ● データから価値を得るためには処理をしなきゃいけない。 ● データを格納するためのハードディスクの容量はどんどん増えて値段 も下がっている。 ● ところが転送レートは容量に追随できていない。 年 容量(GB) 転送レート(MB/s) ディスク読み込み時間 1997 2.1 16.6 126秒 2004 200 56.6 59分 2014 3,000 210 3時間58分 (Cloudera Administrator Training資料から引用) 9. なぜHadoopが必要になったか 2 ● 巨大なデータを1台のマシンで処理しようとするとバス幅がボトルネックになる ● データ処理はデータを保持しているノード毎に行なって、それを集計すれば良さそ う? ● GoogleがMapReduceおよびGoog
This document summarizes a benchmark study of file formats for Hadoop, including Avro, JSON, ORC, and Parquet. It found that ORC with zlib compression generally performed best for full table scans. However, Avro with Snappy compression worked better for datasets with many shared strings. The document recommends experimenting with the benchmarks, as performance can vary based on data characteristic
手元でちょっとやったのでメモっとく。 Missing blocksが出た場合 HDFSのブロックが読めなくなることがある。手元ではHoop Server経由でappendが高頻度で発生している状況で、さらにHiveのクエリ実行が重なって派手にiowaitが出たときに起きた。 こうなると、そのブロックを含むファイルをMapReduceジョブが読みにいったときにIOErrorでコケてどうにもならなくなる。 状況は以下のコマンドで確認できる。 $ hadoop dfsadmin -report Configured Capacity: 35339596017664 (32.14 TB) Present Capacity: 33745796892986 (30.69 TB) DFS Remaining: 13764055724032 (12.52 TB) DFS Used: 19981741168
NTTデータのソリューションとは NTTデータは、大規模データの活用にHadoopを利用した、分散処理のアプローチで多くの実績があります。 従来は夜間時間帯で実行していたバッチ処理を高速化することで、より早く情報を活用できる機会を創りました。 また、機器の容量不足などにより数日間分で捨てていたデータを数か月~年単位で保存することで、分析の精度を高めることができるようになりました。 実現したいことに応じて、数台~千台規模のサーバーからなるHadoopシステムを導入するなどの実績がございます。 加えて、データの活用シーンに応じて様々な分散処理環境を提供してきた実績もございます。 そして、数年以上のHadoopシステム運用で得られたノウハウを蓄積しています。 分散処理技術Hadoopについて Hadoop, Spark, Kafkaを利用した分散処理システムに強み NTTデータでは、Hadoop
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く